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内 容 简 介 
本 书 共 27 章 ， 分 为 上 下 两 卷 : 上 卷 介绍 SAS 编程 基础 与 使 用 方法 ， 是 广大 程序 员 快 速 掌握 SAS 
编程 技术 的 简明 开发 教程 ， 下 卷 阑 述 数据 分 析 的 关键 基础 知识 并 提供 相应 SAS 代码 实现 ， 目 的 是 激发 
读者 兴趣 ， 助 其 跨越 传统 编程 与 数据 分 析 的 鸿沟 ， 从 程序 员 华丽 转身 为 数据 科学 家 。 书 中 演示 代码 力图 
简洁 清晰 地 解释 相关 概念 ， 追 求 大 道 至 简 。 本 书 兼顾 编程 技术 与 数据 分 析 ， 期 待 程序 员 、 信 息 处 理 与 统 
计 分 析 人 员 以 及 对 数据 分 析 科 学 感 兴趣 的 读者 都 能 从 本 书 中 获 益 良 多 ， 循 序 渐进 地 掌握 数据 分 析 的 要 义 
和 精髓 ， 从 数据 中 获取 洞 见 与 智慧 。 
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All knowledge is, in final analysis, history. 
在 终极 的 分 析 中 ， 一 切 知识 都 是 历史 


All sciences are, in the abstract, mathematics. 


在 抽象 的 意义 下 ， 一 切 科学 都 是 数学 


All judgements are, in their rationale, statistics. 


在 理性 的 基础 上 ， 所 有 判断 都 是 统计 


一 一 Calyampudi Radhakrishna Rao 一 一 


All models are wrong, but some are useful. 


BAYAR, ALED 


—— George E. P. Box 一 一 


说 以 此 书 献 给 远 在 家 乡 的 母亲 ， 
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《SAS 技术 内 幕 : 从 程序 员 到 数据 科学 家 》 是 值得 一 读 的 数据 分 析 技 术 入 门 佳作 。 
这 本 书 是 数据 分 析 领 域 资深 专家 为 融合 程序 员 和 统计 分 析 人 员 的 不 同 视 角 而 编写 的 
给 读者 在 计算 机 程序 设计 世界 和 数据 分 析 世 界 之 间架 起 一 座 桥梁 …… 罗 马 不 是 一 天 建成 
的 ! 但 阅读 本 书 将 使 普通 的 程序 员 也 能 快速 入 门 SAS 语言 并 以 最 简洁 的 方式 掌握 SAS 
编程 核心 ， 实 现 向 优秀 数据 科学 家 的 华丽 转身 ! 
北京 大 学 信息 科学 技术 学 院 博士 生 导师 、 教 授 G4 


本 书 把 复杂 的 数据 分 析 科 学 以 最 简单 的 应 用 和 实例 介绍 给 读者 ， 是 一 本 难得 的 告诉 
你 用 SAS 将 数据 变 为 知识 ， 将 知识 变 为 决策 的 好 书 ! 
国务 院 发 展 研究 中 心 研究 员 AAP 


SAS 是 数据 分 析 、 数 据 挖掘 和 人 工 智能 的 领军 平台 。 本 书 集结 了 作者 多 年 从 事 数据 

分 析 和 商业 智能 研究 与 实践 的 经 验 。 用 SAS 平台 深入 浅 出 地 给 程序 员 介 绍 了 数据 挖掘 的 
基础 与 精髓 ， 帮 助 他 们 成 为 数据 分 析 的 真正 专家 ， 非 常 推荐 ! 

艾 德 思 奇 (adSage ) 董事 长 ” 唐 朝 晖 


现在 很 多 企业 都 开始 进入 数据 分 析 领 域 ， 由 于 没有 现成 的 、 足 够 多 的 数据 分 析 人 员 ， 
企业 只 能 让 现 有 的 软件 开发 人 员 承 担 这 些 责任 。 然 而 ， 软 件 开 发 人 员 与 数据 分 析 人 员 的 
思维 是 有 差异 的 ， 也 就 是 确定 性 的 结果 和 概率 性 的 结果 的 差异 。 如 何 帮 助 这 些 软件 开发 
人 员 成 为 合格 的 双重 人 才 ， 需 要 一 定 的 知识 补充 和 理论 指导 。 巫 银 良 先生 根据 自己 丰富 

的 从 业 实践 与 行业 观察 总 结 出 来 的 这 本 书 正好 填补 了 这 一 空白 ， 值 得 推荐 ! 
SAS 中 国 研 发 中 心 总 经 理 刘 政 


SAS 作为 一 门 古老 而 高 效 的 统计 编程 语言 , 在 商业 数据 分 析 行 业已 经 流行 了 儿 十 年 ， 
历久 弥 新 ! 它 给 人 的 感觉 是 神秘 而 复杂 ， 深 奥 且 与 众 不 同 ， 往 往 让 人 难以 理解 ! 但 本 书 
作者 在 多 年 编程 经 验 和 分 析 实 践 的 基础 上 ， 用 简单 直 白 的 语言 将 数据 分 析 这 件 事 说 明白 
了 。 本 书 从 程序 员 的 角度 出 发 ， 以 简洁 实例 带领 读者 从 程序 员 世 界 深入 数据 分 析 的 世界 ， 
是 一 本 写 给 程序 员 的 数据 分 析 技 术 入 门 佳作 ! 

慧 科 集团 技术 产品 中 心 技术 副 总 裁 ” 李 嘉 
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很 多 SAS 统计 师 其 实 是 野蛮 生长 起 来 的 ， 比 如 我 ， 面 对 代码 缺乏 程序 员 的 严谨 思维 ; 
很 多 SAS 程序 员 其 实 是 半 道 出 家 的 ， 比 如 我 ， 面 对 数据 缺乏 统计 师 的 分 析 思 维 。 巫 银 良 
先生 此 书 恰好 弥合 了 这 两 方面 的 话题 。 本 书 不 仅 对 常规 SAS 编程 语言 进行 了 细致 的 介绍 ， 
而 且 对 各 种 数据 结构 用 SAS 编程 语言 进行 了 对 接 ; 不 仅 有 常规 统计 方法 的 讲解 ， 而 且 有 
统计 方法 背景 知识 的 SAS 论证 ， 末 章 更 是 趣味 大 增 、 思 路 大 开 ， 花 式 展示 用 SAS 高 精 
度 求解 x 值 。 本 书 内 容 丰富 ， 构 思 严 谨 ， 必 将 是 程序 员 、 统 计 分 析 师 以 及 未 来 的 数据 
科学 家 们 手中 的 一 份 上 好 读物 。 
《SAS 编程 演义 》 作 者 ” 谷 鸿 秋 


本 书 由 基础 到 专业 、 循 序 渐 进 地 介绍 了 数据 分 析 的 各 种 技术 和 应 用 ， 是 从 事 量化 投 
资 专业 人 士 必 读 的 入 门 书籍 。 
北京 冲 和 资产 管理 有 限 公 司 量化 投资 总 监 ” 付 春光 


企业 数字 化 时 代 已 到 来 ! 当 每 个 企业 每 个 人 每 个 物体 都 在 被 不 断 数据 化 时 ， 对 数据 

化 背后 的 洞察 获取 相 比 高 速 增长 的 数据 积累 显得 迟钝 。 这 本 书 将 弥补 这 一 不 足 ， 让 更 多 

程序 员 、 统 计 分 析 师 、 软 件 产品 设计 者 向 数据 科学 专业 人 士 方向 发 展 ， 以 科学 的 方法 去 
发 现 数据 的 神秘 和 数据 之 美 。 

致远 互联 高 级 副 总 裁 ” 杨 社 雄 


当 我 看 到 标题 的 一 刻 ， 心 想 这 可 能 又 是 一 个 专门 针对 程序 员 讲 解 编程 的 书 。 但 当 
我 打开 书 ， 慢 慢 品 读 的 时 候 ， 有 的 是 惊喜 ;在 书 中 ， 可 以 看 到 与 数学 概念 相关 的 历史 、 
公式 ， 计 算 机 技术 以 及 SAS 编程 的 有 机 融合 。 我 一 口气 读 下 来 ， 没 有 感到 星 涩 和 枯燥 , 
这 是 一 本 值得 推荐 的 好 书 。 

华为 供应 链 管 理 部 数据 科学 家 林 建 伟 


SAS 的 合作 伙伴 ， 期 待 一 些 系统 化 地 解释 SAS 技术 和 应 用 案例 的 书籍 ， 以 帮助 合 

作 伙 伴 提 升 SAS 应 用 技能 ， 从 而 更 好 地 服务 客户 ， 实 现 商业 价值 。 本 书 有 层次 、 有 节 

又 地 帮助 SAS 顾问 和 技术 人 员 ， 兼 顾 程序 员 视 角 和 数据 科学 家 视角 ， 逐 步 深 入 地 探索 

SAS 技术 的 应 用 , 以 充分 发 挥 SAS 技术 在 商业 分 析 具 体 业 务 场景 中 的 优势 ， 这 是 一 本 非 
常 值得 推荐 的 好 书 ! 

SAS 中 国 销售 总 监 兼 合作 伙 伴 与 渠道 负责 人 ”陈云 凯 
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《SAS 技术 内 幕 : 从 程序 员 到 数据 科学 家 》 是 值得 一 读 的 数据 分 析 技术 入 门 佳作 。 
这 本 书 是 数据 分 析 领 域 资深 专家 为 融合 程序 员 和 统计 分 析 人 员 不 同 视角 而 编写 ， 给 读者 
在 计算 机 程序 设计 世界 和 数据 分 析 世 界 之 间架 起 一 座 桥梁 。 

我 在 北京 大 学 计算 机 系 从 事 计算 机 教学 和 科研 几 十 年 ， 所 主讲 的 “数据 结构 与 算法 ” 
被 评选 为 国家 级 精品 课程 。 图 灵 奖 获得 者 尼古拉斯 。 沃 斯 (Niklaus Wirth) 提出 “程序 = 
算法 + 数据 结构 ”， 而 计算 机 语言 则 是 构建 程序 世界 的 主要 工具 。 在 计算 机 编程 语言 世 
界 里 ， 除 了 汇编 、C/C++ 和 Java/C# 等 主流 通用 语言 外 ， 还 有 很 多 面向 特定 领域 的 高 级 
语言 ， 如 SAS、R 和 MATLAB 等 。 我 一 直 鼓 励 学 生 们 开阔 视野 ， 多 接触 一 些 工业 界 的 
专业 工具 和 编程 语言 ， 不 要 局 限 在 C/C++ 等 通用 语言 的 框架 里 。 在 这 些 专 用 语言 的 背后 ， 
往往 蕴含 特定 的 领域 思维 和 设计 哲学 ， 基 于 专业 人 士 在 处 理 领 域 问 题 时 积累 的 丰富 经 验 
进行 了 极其 灵活 的 设计 ,专用 语言 的 这 些 特 性 往往 是 通用 编程 语言 所 不 考虑 也 不 具备 的 。 

近 些 年 来 ， 数 据 分 析 和 商业 智能 发 展 迅 猛 ， 大 数据 和 人 工 智能 在 学 术 界 和 产业 界 都 
生机 勃勃 。 学 术 界 科研 人 员 注 重 的 是 引领 世界 科技 发 展 的 超前 研究 ， 在 理论 和 创新 方面 
有 独到 之 处 。 工 业界 是 前 沿 技术 的 成 熟 应 用 ， 学 术 界 在 培养 应 用 型 人 才 方 面 需要 考虑 工 
业界 的 真实 需求 。 因 此 ， 北 京 大 学 很 早 就 与 全 球 数据 分 析 行 业 的 领导 者 SAS 合作 ， 开 设 
了 面向 研究 生 和 高 年 级 本 科 生 的 统计 分 析 选 修 课 程 “ 统 计 分 析 与 商务 智能 ”， 取 得 了 非 
常 好 的 教学 效果 。SAS 是 全 球 数 据 分 析 领 域 的 领导 者 ， 它 们 以 创新 的 软件 和 服务 ， 在 
数据 分 析 、 商 业 智 能 、 数 据 管理 等 领域 耕耘 四 十 余年 ， 一 直 秉 持 的 理念 就 是 提供 UM 
识 力 量 ” (The Power to Know?) ， 使 用 户 能 够 对 海量 数据 深入 了 解 并 获得 洞 见 和 价值 
(Insight & Value) ， 为 企业 的 运营 发 展 提供 决策 利器 。 

如 果 按 照 数 据 的 生产 和 消费 进行 划分 ， 大 部 分 应 用 软件 和 系统 ， 包 括 互 联网 社交 媒 
体 和 电子 商务 都 在 大 量 制造 数据 ， 这 一 进程 经 过 信息 化 时 代 和 互联 网 时 代 已 经 得 到 充分 
体现 。 如 何 消费 这 些 数 据 却 催生 了 其 他 软件 系统 的 发 展 ， 它 们 包括 各 种 分 析 系 统 如 商业 
智能 (BI) 、 决 策 系 统 、 专 家 系统 和 人 工 智能 系统 CAD 等 。 近 些 年 来 数据 分 析 在 公众 
媒体 眼中 变 得 非常 热门 , 原因 就 是 分 析 利 用 数据 并 从 中 获取 价值 在 “信息 化 时 代 ” 和 “ 互 
联网 时 代 ” 之 后 的 “大 数据 时 代 ” 变 得 尤为 迫切 。 在 过 去 的 几 年 中 ， 处 理 数据 、 对 数据 
进行 可 视 化 分 析 、 理 解数 据 ， 跟 数据 进行 沟通 、 深 入 探索 ， 并 从 中 获得 价值 ， 这 些 过 程 
已 经 变 得 极为 重要 。 在 软件 领域 ， 数 据 分 析 将 是 21 世纪 头 十 年 经 过 商业 智能 产业 大 并 
购 之 后 的 下 一 个 蓝海 ! 不 过 ， 蓝 海中 不 再 是 程序 员 划 着 小 船 在 币 律 ， 而 是 数据 科学 家 们 
开 着 利 舰 邀 游 在 大 数据 的 海洋 之 上 。 

现实 已 经 告诉 我 们 ,计算 机 程序 员 需 要 在 程序 员 思维 之 外 ， 尽 快 拥有 数据 分 析 思 维 ， 
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华丽 转身 成 为 数据 科学 家 ! 文本 分 析 、 语 音 识别 、 神 经 网 络 、 人 工 智 能 、 自 动 驾 驶 等 各 
种 最 新 最 热门 的 数据 分 析 领 域 ， 说 到 底 需 要 的 是 强大 的 综合 能 力 ， 包 括 良好 的 计算 机 编 
程 技能 (Programming) 、 扎 实 的 数学 和 统计 知识 (Mathematics & Statistics) 、 专 业 的 
业务 领域 知识 (Business) 以 及 与 数据 来 源 和 消费 方 良好 的 沟通 技能 (Communication) 等 。 
除 具 备 良好 的 编程 能 力 和 丰富 的 数据 库 知识 之 外 ， 如 果 程 序 员 掌握 像 SAS 这 样 一 种 严谨 
且 专 门面 向 数据 分 析 的 语言 ， 拥 有 扎 扎 实 实 修炼 数学 和 统计 分 析 的 能 力 ， 那 就 能 让 自己 
站 在 数据 分 析 的 最 前 沿 。 

罗马 不 是 一 天 建成 的 ! 但 阅读 本 书 将 使 普通 的 程序 员 也 能 快速 入 门 SAS 语言 并 以 最 
简洁 的 方式 掌握 SAS 编程 核心 ， 实 现 向 优秀 数据 科学 家 的 华丽 转身 ! 


北京 大 学 信息 科学 技术 学 院 
博士 生 导师 、 教 授 
张 铭 
2018 年 8 月 
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本 书 是 写 给 程序 员 的 数据 分 析 技 术 入 门 书籍 ， 成 书 于 2017 年 作者 在 北京 大 学 教授 
面向 研究 生 和 高 年 级 本 科 生 的 “统计 分 析 与 商务 智能 ”选修 课 期 间 ， 它 试图 在 程序 世界 
和 数据 分 析 世 界 之 间架 起 一 座 坚实 的 桥梁 。 

本 书 主要 包括 上 下 两 卷 内 容 : 程序 员 视 角 下 的 SAS 编程 技术 和 数据 结构 ， 数 据 科学 
家 视角 下 的 数据 分 析 理 论 和 SAS 实践 。 

上 卷 主要 包括 SAS 语言 入 门 、 数 据 集 与 DATA 步 、 变 量 与 表达 式 、 流 程控 制 、 函 
数 封装 、SAS 宏 、DS2、 代 码 组 织 、 文 件 读 写 、 按 位 运算 以 及 扩展 SAS 功能 。 另 外 ， 还 
从 程序 员 的 视角 阐述 了 各 种 数据 结构 在 SAS 中 的 编程 实现 和 应 用 ， 包 括 SAS 数组 、 队 
列 与 堆栈 、 链 表 、 二 叉 树 、 和 矩阵 运算 和 图 等 。 

下 卷 包 括 统计 学 基础 、 大 数 定律 与 中 心 极限 定理 、 统 计 分 布 、 方 差分 析 、 数 据 标准 化 、 
主 成 分 分 析 与 因子 分 析 、 相 关 分 析 与 回归 分 析 、 聚 类 分 析 、 神 经 网 络 ， 最 后 以 n 值 高 精 
度 求解 和 探索 分 析 结 束 。 

本 书 内 容 涵盖 理论 和 实践 ， 章 节 组 织 采 用 从 简单 到 复杂 的 方式 。 本 书 识 括 数据 分 析 
技术 方面 较为 核心 的 基础 内 容 ， 试 图 与 读者 一 起 触及 数据 世界 分 析 与 智能 的 核心 。 各 章 
为 读者 提供 简洁 可 运行 的 SAS 示例 代码 、 算 法 实现 以 及 快速 指南 ， 为 广大 受过 计算 机 科 
学 教育 的 程序 员 向 数据 科学 家 华丽 转身 提供 了 必要 的 快速 入 门 指 导 。 本 书 附录 还 提供 二 
项 分 布 、 泊 松 分 布 和 标准 正 态 分 布 累积 概率 表 以 及 1 分 布 、x? 分 布 和 下 分 布 临界 值 表 的 
制作 与 查找 方法 。 本 书 适用 于 各 大 专 院 校 统计 分 析 专 业 和 信息 处 理 专业 的 学 生 ， 有 志 
从 事 数据 分 析 的 广大 程序 员 、 统 计 分 析 从 业 人 员 以 及 所 有 想 成 为 数据 科学 家 的 专业 人 士 。 

本 书 与 传统 的 SAS 数据 分 析 书 籍 不 同 之 处 在 于 ， 它 从 程序 员 的 视角 出 发 ， 循 序 渐进 
探讨 数据 分 析 的 各 个 方面 ， 避 免 “ 知 其 然而 不 知 其 所 以 然 ” 。 因 此 ， 阅 读本 书 可 使 你 
从 完全 不 了 解 SAS 到 对 SAS“ 有 所 了 解 ”， 从 而 掌握 数据 分 析 的 要 义 和 精 钥 ， 实 现 从 
程序 员 到 数据 科学 家 的 华丽 转身 ! 

最 后 ， 诚 垫 感谢 北京 大 学 信息 科学 技术 学 院 博士 生 导师 、 中 国 ACM 教育 专 委 会 主 
席 张 铭 教授 为 本 书 作 序 。 感谢 SAS 中 国 研发 中 心 总 经 理 刘 政 博士 给 予 的 大 力 帮助 和 指导 ， 
感谢 SAS 大 中 华 区 前 市 场 总 监 蒋 顺利 先生 、 高 级 市 场 经 理 曾 秋 媚 女士 在 写作 过 程 中 给 予 
的 帮助 和 支持 ， 感 谢 在 写作 过 程 中 给 予 特 别 帮助 的 SAS 中 国 研发 中 心 的 同仁 们 。 感 谢 清 
华 大 学 出 版 社 编辑 部 的 刘洋 先生 和 全 体 同 仁 的 辛勤 工作 ， 是 他 们 的 努力 使 本 书 得 以 与 读 
者 见面 ! 感谢 恩师 陈 永 金 先生 以 及 所 有 在 我 生命 中 给 予 帮助 的 人 们 ! 特别 感谢 与 我 一 路 
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SAS 语言 入 门 


SAS 是 英文 Statistical Analysis System 的 简称 ， 英 文 发 音 为 /sass/。 它 具有 多 层 含 义 : 
首先 ，SAS 作为 一 家 高 科技 常青藤 软件 公司 ， 由 参加 过 阿波 罗 计 划 的 统计 学 家 James 
Goodnight 博士 和 John Sall 博士 成 立 于 1976 年 ， 总 部 位 于 美国 北 卡罗来纳 州 的 卡 利 市 。 
James 从 1976 年 7 月 1 日 起 担任 首席 执行 官 至 今 ， 在 2004 年 曾 被 哈佛 大 学 提名 为 伟大 
的 美国 商业 领袖 。 目 前 ，SAS 是 全 球 商 业 分 析 软 件 和 服务 的 终极 领导 者 ， 是 商业 智能 和 
数据 分 析 行 业 最 大 的 独立 供应 商 。 其 次 ，SAS 作为 一 个 庞大 的 软件 系统 ， 以 提供 "M 
识 力 量 ” (The Power to Know) 为 已 任 ， 向 全 球 各 行 各 业 提供 全 面 的 数据 分 析 技 术 ， 
涵盖 统计 分 析 、 趋 势 预报 、 预 测 模型 和 优化 等 多 个 领域 。 在 所 有 涉及 数据 分 析 的 领域 ， 
SAS 公司 都 有 非常 强大 而 严谨 的 解决 方案 ， 是 全 球 主要 咨询 服务 商 首 届 一 指 的 合作 伙伴 
和 分 析 基 础 设施 提供 者 。SAS 自 成 立 40 多 年 来 一 直 帮 助 用户 和 合作 伙伴 将 各 种 数据 转 
化 为 知识 与 智慧 ， 从 中 发 掘 企业 数据 的 商业 价值 。 最 后 ，SAS 作为 一 门 历久 弥 新 的 计算 
机 语言 ， 自 1976 年 起 就 是 专门 为 数据 处 理 和 统计 分 析 而 设计 的 第 四 代 计 算 机 编程 语言 

(4GL) 。 功 能 上 主要 面向 数据 科学 的 多 个 领域 ， 包 括 数据 操作 、 分 析 和 报告 。 与 传统 
的 通用 编程 语言 不 同 ，SAS 是 专门 为 数据 科学 设计 的 计算 机 语言 ， 因 此 它 具 有 自己 独 有 
的 语言 特征 和 运行 模式 。 经 过 40 多 年 的 岁月 洗礼 ，SAS 语言 已 经 证 明 自 己 是 数据 分 析 
领域 的 不 二 之 选 和 事实 上 的 标准 。SAS 是 美国 联邦 药品 和 食品 管理 局 FDA 接纳 和 审核 
电子 提交 材料 以 及 财富 500 强生 命 科 学 公司 的 标准 统计 软件 ， 以 严格 著称 的 FDA 规定 
新 药 临床 试验 结果 的 统计 分 析 只 能 用 SAS 进行 ， 其 他 软件 的 计算 结果 一 律 不 被 承认 。 

SAS 的 计算 服务 包括 SAS 语言 、SAS 引擎 和 数据 库 服务 三 大 核心 模块 。 其 中 SAS 
语言 是 整个 分 析 服 务 系统 与 用 户 进行 交互 的 接口 。 


© SAS 语言 : 用 于 编写 SAS 程序 ， 主 要 由 如 下 一 系列 面向 数据 操作 和 分 析 的 语言 
元 素 构 成 。 主 要 包括 数据 步 (DATA Step ) 和 过 程 步 (PROC Step) , SAS 步 是 现 
实 世 界 中 处 理事 情 的 步骤 在 程序 世界 里 的 反映 。 


COD 数据 步 (DATA Step): 负责 数据 读 入 、 数 据 处 理 并 创建 SAS 能 理解 的 数据 表示 ， 
即 数据 集 和 数据 列 。 

(2) 过 程 步 (PROC Step) : 负责 对 数据 进行 分 析 ， 完 成 各 种 统计 分 析 功能 和 图 表 
报表 功能 。SAS 提供 400 多 个 功能 强大 的 过 程 步 ， 用 于 封装 各 种 分 析 模块 。 

(3) SAS 宏 (SAS Macro) : 包括 宏 变 量 和 宏 函 数 ， 是 实现 SAS 代码 重用 ， 减 少 
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宛 余 代码 逻辑 的 顶层 利器 。 宏 在 很 多 计算 机 语言 中 都 已 经 退化 ， 但 在 SAS 语言 中 依然 
保留 了 极其 强大 的 生命 力 。 

SAS 语言 是 跨 平台 的 编程 语言 ， 编 写 好 的 SAS 程序 可 以 运行 在 各 种 架构 的 Linux、 
UNIX, Windows 甚至 IBM 大 型 主机 上 。SAS 运行 环境 就 像 Java 的 JRE 或 .NET 的 CLR 
环境 ， 它 提供 与 主机 平台 无 关 的 软件 执行 环境 。 实 际 上 ，SAS 公司 比 SUN 更 早 提出 革 
命 性 的 主机 无 关 的 可 移植 层 概 念 , SAS 代码 跟 Java 代 码 一 样 “ 一 次 编写 ,随处 运行 ”Write 
once, Run anywhere) ， 可 跨 平台 运行 在 各 种 操作 系统 之 上 ，SAS 内 部 至 今 依然 称 这 种 架 
构 为 MVA (Multi-Vendor Architecture) 架构 。 

与 其 他 编程 语言 的 IO 系统 不 同 ，SAS 运行 环境 提供 一 个 被 称 为 输出 交付 系统 

(Output Delivery System, ODS) 的 部 分 ， 用 于 管理 SAS 程序 的 分 析 结 果 输 出 。ODS 

支持 多 种 高 级 格式 的 输出 目标 〈 如 LISTING, OUTPUT, DOCUMENT) 以 及 多 种 第 
ZDR HER HTML, PRINTER, MARKUP, RTF 等 ) ， 用 户 也 可 以 自 定义 输 
出 模板 ， 来 控制 分 析 结 果 的 形态 和 生成 报告 的 类 型 ， 基 于 同样 分 析 结 果 可 以 构建 不 同 
形式 的 报告 。 


€ SAS 引 擎 : 为 了 让 SAS 语 言 编程 人 员 专 注 于 数据 分 析 本 身 ，SAS 提 供 一 系列 
引擎 来 屏蔽 数据 访问 和 执行 环境 相关 的 细节 ， 让 用 户 仅 通过 SAS 39 8E 5]UR 
( Library Reference ) 就 能 标记 需要 分 析 的 数据 ， 而 无 须 将 太 多 的 注意 力 放 在 具 
体 的 数据 存储 格式 、 数 据 库 类 型 以 及 计算 资源 的 形态 等 信息 上 。 因 此 ，SAS 分 
析 代 码 变 得 非常 清晰 、 可 重用 ,分 析 人 员 只 需 关 心 分 析 逻 辑 本 身 即 可 。 


SAS 引擎 包括 SAS 逻辑 库 引 擎 (SAS Library Engines) 和 远程 逻辑 库 服 务 (Remote 
Library Services) 两 大 类 ， 分 别 让 用 户 在 SAS 代码 中 可 以 非常 方便 地 访问 本 地 磁盘 上 的 
数据 或 存储 于 远程 计算 机 平台 〈 如 各 种 关系 型 数据 库 ) 的 数据 。 根 据 SAS 代码 的 运行 模 
I SAS 传统 上 提供 一 系列 运行 方式 不 同 的 服务 器 ， 用 于 各 种 计算 和 分 析 : 

COD 工作 区 服务 器 CWorkspace Server) : SAS 代码 每 次 提交 到 该 服务 器 运行 ， 系 
统 都 会 新 建 一 个 SAS 运行 环境 ， 它 对 应 操作 系统 的 一 个 独立 执行 进程 ， 通 常 称 为 SAS 
A (SAS Session) 。 这 跟 SAS 在 单机 环境 上 的 运行 模式 大 致 相同 : 一 个 会 话 对 应 一 
个 操作 系统 进程 ， 每 个 会 话 具 有 独立 的 系统 环境 和 临时 数据 区 。 

(2) 存储 过 程 服务 器 (Stored Process Server) : SAS 代码 多 次 提交 到 存储 过 程 服 
务 器 运行 ， 这 些 代 码 会 共享 一 个 SAS 作为 服务 启动 时 建立 的 那个 SAS 会 话 ， 也 就 是 多 
次 代码 提交 共享 单一 会 话 模式 ， 此 时 反复 提交 代码 不 会 新 建 会 话 ， 而 是 重用 已 有 会 话 。 

(3) 连接 服务 器 (SAS/Connect Server) : 可 以 让 客户 端 机 器 充分 利用 服务 端 机 
器 上 的 资源 运行 SAS 程序 并 处 理 结果 ， 构 建 “SAS 到 SAS” 的 客户 端 /服务 端 运行 
环境 。 

(4) 网 格 服务 器 (Grid Server) : 它 是 SAS 应 用 服务 器 上 用 于 桥接 SAS 应 用 和 
SAS 网 格 环境 的 逻辑 服务 器 ， 实 现 将 繁重 的 计算 作业 分 配 到 网 格 环境 上 并 行 执行 。 
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e 数据 库 服务 : 包括 数据 访问 、 库 内 处 理 和 内 存 分 析 几 个 层次 ， 代 表 了 数据 访问 
模式 的 几 个 阶段 。 


(1) 数据 访问 (Data Access) : 对 于 各 种 各 样 的 数据 存在 形态 和 数据 库 ，SAS 都 
提供 对 应 的 数据 访问 服务 来 保证 对 特定 数据 的 访问 ，SAS 支持 从 PC 单机 文件 到 关系 型 
数据 库 、 从 分 布 式 文件 系统 HDFS 到 云端 (Cloud) 数据 的 访问 能 力 。 
(2) 库 内 处 理 〈In-Database Processing) : SAS 为 改进 系统 性 能 ， 减 少数 据 在 数据 
库 管理 系统 和 SAS 运行 环境 之 间 的 “传输 和 移动 ”， 加 速 数据 分 析 的 开发 部 署 而 设计 
的 一 种 高 性 能 分 析 平 台 技术 ; 它 采 用 更 加 智能 化 的 SQL 来 增强 所 选 的 分 析 过 程 步 ， 在 
一 些 关键 用 例 上 甚至 可 将 SAS 系统 函数 直接 部 署 到 数据 库 运行 环境 的 内 部 来 执行 。 此 时 
SAS 嵌入 进程 与 数据 库 本 身 的 服务 进程 构成 双 头 体系 结构 ， 共 享 同一 数据 。 
G) 内 存 分 析 CSAS” In-Memory Analytics) : 随 着 大 数据 时 代 的 到 来 ， 高 级 分 析 
和 可 视 化 分 析 呼 唤 对 海量 数据 的 大 规模 并 发 访问 ， 海 量 并行 处 理 (MPP) 架构 应 运 而 生 。 
SAS 运行 在 分 布 式 计算 环境 的 LASR 分 析 服 务 器 CLASR" Analytics Server). 能 够 预先 将 
海量 数据 加 载 到 计算 机 网 格 的 内 存 ， 提 供 安 全 、 无 状态 的 只 读 操作 ， 从 而 实现 在 亚 秒 级 
完成 对 海量 数据 〈 亿 行 级 ) 的 分 析 。 
2016 年 ，SAS 再 次 创新 性 地 推出 了 SAS 云 分 析 服 务 〈Cloud Analytics Services, 
CAS) ， 它 是 SAS 运行 在 云端 最 新 的 数据 管理 和 分 析 运 行 环 境 ， 可 直接 对 存储 在 云端 
〈 如 亚马逊 云 、 阿 里 云 等 ) 的 商业 数据 进行 分 析 处 理 。 同 时 也 是 SAS 在 云 平 台 开放 时 代 
的 革命 性 创新 ，CAS 强大 的 分 析 服 务 支持 不 同 的 调用 接口 ， 用 户 只 要 使 用 Java, Python 
和 Lua 等 语言 API 就 可 直接 访问 CAS 服务 ， 这 在 SAS 历史 上 是 前 所 未 有 的 开放 实践 。 
SAS 网 格 计 算 CSAS" Grid Computing) 、 库 内 计算 〈SAS? In-Database) 和 内 存 计 
41 CSAS” In-Memory Analytics) 是 SAS 高 性 能 分 析 平台 的 三 大 支柱 。 近 40 年 来 ， 不 管 
计算 环境 如 何 变化 ，SAS 一 直 致 力 于 将 最 好 的 分 析 技 术 带 给 用 户 ， 为 客户 提供 从 数据 
(Data) 到 信息 CInformation) ， 从 知识 (Knowledge) 到 智能 (Wishdom) 不 断 演进 的 “ 慧 
识 力 量 ” (The Power to Know?) 。 
数据 分 析 的 核心 目的 就 是 提升 认 知 的 过 程 。 美 国 系统 理论 家 罗素 。 艾 可 夫 Russell L. 
Ackoff) 认为 人 的 心智 内 容 可 分 为 数据 、 人 信息、 知识 、 理 解 及 智慧 5 个 层次 (图 1-1) 。 
其 中 数据 就 是 承载 信息 的 原始 符号 ， 自 身 除了 存在 性 以 外 没有 任何 意义 。 而 信息 就 是 数 
据 通过 关系 连接 在 一 起 具有 特定 含义 的 有 用 数据 , 能 够 提供 时 间 (When)、 地 点 (Where)、 
人 物 (Who) 以 及 什么 (What) 之 类 问题 的 答案 。 知 识 则 是 按照 特定 模式 组 合 的 信息 
集合 ， 可 以 为 人 们 所 确定 性 地 记忆 和 保存 ， 能 够 回答 事情 是 如 何 (How) 发 生 之 类 的 问 
题 ; 然而 知识 还 需要 进一步 建立 在 已 知 〈 历 史 ) 知识 基础 上 对 内 插 和 概率 性 的 理解 ， 即 
从 已 知 知识 中 获取 新 知识 并 综合 新 知识 来 回答 为 何 〈《Why) 的 过 程 ， 才 能 达到 认 知 和 分 
析 性 的 水 准 。 知 识 和 理解 这 两 个 层次 就 是 “记忆 ”和 “明白 ”的 区 别 ， 就 如 小 学 生 会 
背 乘 法 口 雇 ， 但 不 能 够 处 理 两 个 较 大 数据 的 乘法 运算 一 样 。 知 慧 则 是 一 个 不 确定 的 非 概 
率 性 外 推 过 程 ， 是 建立 原理 和 准则 的 过 程 ， 也 是 哲学 探索 的 本 质 ， 智慧 与 前 四 个 级 别 的 


第 1 章 SAS 语言 入 门 [TEN 


区 别 是 它 不 束缚 于 历史 ， 而 是 面向 未 来 ， 即 智慧 是 能 够 改变 “将 要 发 生 ” 事 情 的 知识 。 
不 论 是 商业 智能 还 是 人 工 智 能 ， 智 慧 的 建立 都 离 不 开 DIKW 框架 和 数据 分 析 的 阶梯 。 


连通 度 


理解 度 


1-1 DIKW 模型 


下 面 以 SAS 的 Hello World 程序 〈 见 程序 1-1) 开始 我 们 的 SAS 语言 编程 之 旅 。 该 
程序 只 输出 两 行文 本 。SAS 与 传统 编程 语言 不 同 ， 默 认 它 并 不 输出 到 操作 系统 的 控制 台 
窗口 ， 而 是 SAS 的 日 志 窗口 。 

程序 1-1 HelloWorld 程序 

data null ; 

put "THE POWER TO KNOW"; 


put "-- Since 1976 --"; 
run; 


1.1 语言 概述 


TIOBE 指数 是 用 来 反映 某 种 编程 语言 的 程度 的 指标 ， 根 据 2017 年 10 月 最 新 的 数据 
显示 ，SAS 编程 语言 占 比 1.296%， 排 名 第 21 位， 而 2016 年 12 月 的 排名 为 第 22 位 。 
编程 语言 本 质 上 是 人 类 用 来 与 机 器 沟通 ， 并 在 人 类 之 间 分 享 思维 方法 的 工具 ， 与 它 所 需 
要 解决 的 问题 领域 紧密 相关 。 世 界 上 没有 哪 一 种 语言 能 够 解决 所 有 问题 ， 所 以 尽管 计算 
机 领域 出 现 了 超过 成 百 上 千 种 编程 语言 ， 但 终究 只 有 少数 强大 语言 生存 下 来 ，SAS 便 是 
其 中 的 佼佼 者 ， 从 1976 年 创立 发 展 到 现在 已 经 40 多 年 。 

SAS 编程 语言 入 门 很 快 ， 但 要 精通 需要 较 长 时 间 ， 尤 其 是 要 掌握 通用 编程 语言 里 面 
没有 的 一 些 SAS 特性 则 需要 花费 较 长 的 时 间 。SAS 作为 数据 分 析 领 域 特定 的 第 四 代 编 
程 语 言 (Fourth-Generation Programming Language ，4GL) ， 与 广泛 流行 的 第 三 代 编 程 
语言 C++、Java 和 C# 不 同 ， 它 是 专门 为 数据 分 析 和 报告 处 理 中 所 涉及 的 复杂 数据 操作 、 
图 形 图 表 制 作 、 文 档 创 建 与 输出 而 设计 ， 不 拘泥 于 通用 计算 机 语言 规范 ， 而 是 以 用 户 操 
纵 数据 、 分 析 数 据 为 根本 导向 。 
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SAS 语言 总 体 上 是 面向 过 程 的 计算 机 语言 ， 有 传统 编程 语言 的 基本 结构 。 但 它 不 
支持 面向 对 象 ， 而 是 以 数据 为 导向 。 虽 然 从 SAS 9 开始 引入 若干 系统 预定 义 对 象 . 哈 希 
(Hash) 、 哈 希 遍 历 器 (HIter) 、JavaObj 对 象 ODSOUT 对 象 ， 并 提供 类 似 面向 对 象 
的 成 员 调 用 语法 ， 但 用 户 至 今 不 能 在 SAS 语言 传统 的 DATA 步 中 创建 自 定义 类 ; 要 使 
用 准 面向 对 象 的 语言 结构 需要 在 SAS 的 第 二 代 DATA〈 即 DS2) 步 中 才 可 使 用 。 然 而 ， 
SAS 提供 强大 的 互 操作 能 力 ， 用 户 可 在 SAS 中 调用 Java 对 象 和 Win32 API 函数 来 实现 
各 种 复杂 功能 ， 也 可 以 在 SAS 代码 中 直接 调用 操作 系统 的 各 种 命令 。 

SAS 语言 中 只 有 两 种 基本 的 数据 类 型 : 字符 型 和 数值 型 ， 分 别 映射 统计 学 中 的 定性 
数据 和 定量 数据 。 在 统计 学 的 世界 里 ， 数 据 分 析 者 并 不 关心 数据 的 存储 细节 ， 而 是 关 
心 数据 的 语义 表达 。 从 外 部 数据 到 SAS 系统 内 部 的 数据 存储 表达 之 间 ， 用 户 可 以 使 用 
输入 格式 (INFORMAT) 和 输出 格式 (FORMAT) 对 数据 进行 读 和 写 的 格式 化 转换 。 

SAS 在 一 些 过 程 中 为 这 两 种 基本 数据 类 型 提供 更 丰富 的 数据 类 型 支持 ， 如 从 SAS9.1 
开始 引入 的 函数 编译 过 程 步 PROC FCMP) 提供 类 似 C 语言 的 结构 体 支 持 ， 而 矩阵 运 
算 过 程 步 PROC IML 提供 矩阵 概念 和 专业 运算 。 但 总 的 说 来 SAS 与 通用 编程 语言 所 支 
持 各 种 面向 存储 的 基本 数据 类 型 ， 如 布尔 类 型 、 整 数 类 型 、 浮 点 类 型 和 字符 类 型 不 同 ， 
它 更 关心 的 是 统计 学 上 的 数据 类 型 。 

根据 测量 尺度 划分 ， 统 计 学 上 的 数据 类 型 具有 定 类 〈 如 性 别 ) 、 定 序 〈 如 年 级 ) 、 
定 距 〈 如 摄氏 温度 ) 和 定 比 〈 如 重量 ) 4 种 基本 数据 类 型 ， 每 种 数据 类 型 内 所 包含 的 信 
息 量 或 们 值 是 不 同 的 ， 因 而 适用 的 统计 分 析 方 法 也 就 不 同 。 

SAS 语言 提供 非常 强大 SAS 宏 语 言 预 处 理 器 , 可 实现 SAS 程序 编译 前 的 宏 替 换 功 能 。 
这 一 特性 允许 SAS 程序 在 编译 和 运行 期 间 ， 动 态 改变 程序 代码 自身 ， 甚 至 可 实现 宏 本 身 
的 递归 调用 。 使 用 SAS 语言 的 统计 分 析 人 员 时 常 惊叹 于 SAS 宏 语 言 的 强大 功能 ， 而 一 
些 不 那么 熟悉 SAS 宏 语 言 的 编程 人 员 则 时 常 为 它 与 传统 计算 机 编程 语言 的 不 同 而 困惑 不 
解 ， 以 至 于 时 常 迷失 在 SAS 宏 与 非 宏 的 程序 世界 里 。 

SAS 语言 是 一 门 比较 复杂 的 计算 机 语言 ， 它 到 底 是 编译 执行 还 是 解释 执行 有 时 候 
连 有 经 验 的 SAS 开发 人 员 也 会 感到 困惑 。 鉴 于 SAS 语言 包含 灵活 的 语言 元 素 ，SAS 代 
码 中 的 Macro 宏 是 由 宏 解 释 器 展开 的 ， 但 非 宏 的 DAIA 步 和 PROC 步 则 以 步 (Step) 
为 单位 由 SAS 依次 进行 编译 执行 。SAS 并 不 是 逐 句 解释 执行 ， 而 是 按 步 编译 执行 。 
DATA Step 中 包括 的 语句 也 分 为 编译 阶段 起 作用 的 声明 性 (Declarative) 语句 和 运行 时 
起 作用 的 可 执行 (Executable) 语句 两 类 。SAS 语言 是 兼 具 编译 和 解释 的 混合 型 计算 机 
语言 ， 鉴 于 此 ， 维 基 百 科 的 分 类 也 很 难处 理 是 将 SAS 语言 归 入 编译 型 语言 (Compiled 
Language) 还 是 解释 型 语言 (Interpreted Language) 。 

SAS 语言 最 强大 的 能 力 是 为 分 析 编 程 人 员 提供 了 完备 细致 的 数据 访问 ， 而 不 用 太 多 
考虑 数据 存储 的 格式 和 存储 位 置 等 细节 ， 如 DATA 步 和 PROC SQL 过 程 步 就 提供 了 各 种 
各 样 的 数据 操作 能 力 ， 而 丰富 的 PROC 步 支持 让 分 析 人 员 专 注 于 数据 分 析 本 身 和 参数 设 
定 。 用 户 通 常 无 须 为 各 种 标准 化 的 严谨 分 析 任 务 重新 编写 代码 逻辑 ，SAS 已 经 为 各 种 分 
析 方 法 规范 化 了 统一 的 形式 和 统计 量 ， 一 旦 SAS 编程 入 门 ， 通 常 只 有 不 懂 的 统计 方法 和 
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类 型 而 没有 不 会 使 用 的 PROC 步 。 
从 传统 的 编程 语言 转换 为 SAS 编程 语言 进行 编程 ， 首 先 要 说 记 如 下 一 些 SAS 语言 
的 核心 规则 。 

(D SAS 程序 由 一 系列 SAS 语句 组 成 ， 所 有 的 语句 都 以 分 号 “;” 结 束 。SAS 代码 
中 可 以 嵌入 待 分 析 的 数据 行 ， 但 数据 行 不 是 SAS 语句 ， 因 此 它 不 需要 以 分 号 结尾 。 

(2) 一 个 SAS 语句 可 以 跨 多 行 编写 ， 多 个 SAS 语句 也 可 以 放 在 同一 行 上 。SAS 语 
句 可 以 从 一 行 中 的 任意 位 置 开 始 ， 代 码 缩 进 并 非 必需 的 。 

(3) SAS 语句 中 的 关键 字 以 空格 分 隔 的 ， 通 常 由 “关键 字 ” 或 “关键 字 = 参 数 ” 
系列 组 成 。 某 些 语句 在 必 选 和 可 选 选项 之 间 会 用 斜 枉 “/” 号 进行 分 隔 。 

(4) SAS 语言 元 素 不 区 分 大 小 写 ， 用 户 可 以 使 用 大 写 、 小 写 以 及 它们 的 混合 。 
但 当 字 符 串 作为 字符 变量 的 数据 时 则 区 分 大 小 写 ， 如 “Hello World" 和 “HELLO 
WORLD" 是 两 个 不 同 的 字符 串 值 。 

(5) SAS 代码 中 标识 符 长 度 较 短 , 用 来 标识 数据 库 和 外 部 文件 的 逻辑 库 引 用 (libref) 
和 文件 引用 (fileref) 名 称 最 长 不 得 超过 8 FHKE, 而 数据 集 (数据 表 ) 名 称 和 变量 OH 
据 列 ) 名 称 最 长 不 得 超过 32 字 节 长 度 。 

(6) SAS 提供 强大 的 SAS 宏 系统 支持 ， 含 有 百 分 号 “%” 或 连 字 符 “& ”的 代码 
文本 会 在 编译 前 触发 SAS 宏 展开 。SAS 提供 语言 级 别 的 宏 支持 ， 而 不 仅仅 是 简单 的 宏 
替换 ， 它 包括 宏 变 量 、 宏 函数 、 宏 分 支 以 及 宏 循 环 等 完备 流程 控制 。 

总 体 上 , SAS 程序 主要 由 一 系列 的 全 局 语句 和 SAS 步 构成 , 包括 DAIA 步 和 PROC 步 。 
而 所 谓 的 SAS 步 则 由 一 系列 的 SAS 语句 CStatements) 构成 。 每 一 个 SAS 步 都 有 开始 和 
结束 边界 ，SAS 根据 步 的 边界 进行 独立 编译 和 执行 。 图 1-2 展示 了 SAS 代码 的 宏观 构成 。 


SAS 代码 


SAS FFF (Program) : 由 若干 语句 组 成 ， 每 个 语 
名 由 一 系列 “关键 字 ” 或 “关键 字 = 参 数值 ”组 成。 
本 通常 必需 的 关键 字 和 可 选 


关键 字 (Keyword) : 语句 中 用 来 指定 SAS 语 言 元 
素 的 名 字 ， 通常 是 前 1 个 或 前 2 个 文本 ， 可 以 有 参 
数 ， 也 可 以 没有 参数 。 

options ls=80 ps=24 nocenter; 


参数 (Argument) : SAS 语句 中 用 来 指定 数值 或 
字符 的 常量 ， 变 量 ， 表 达 式 。 出 现在 关键 字 或 关 
键 字 和 等 号 之 后 。 

options Is=80 ps-24 nocenter; 


12 SAS 代码 的 宏观 构成 


SAS 步 由 DATA 或 PROC 语句 开始 , 默认 结束 于 下 一 个 DATA 或 PROC 步 的 开始 处 。 
用 户 也 可 用 RUN 语句 显 式 地 标识 DATA EÈ PROC 步 的 结束 并 提交 执行 之 前 的 SAS 代码 。 
对 于 某 些 资源 依赖 型 PROC 语句 ， 则 通常 需要 以 QUIT 语句 来 提交 当前 PROC 步 并 释放 
资源 返回 SAS 会 话 中 。 比 如 PROC SQL、PROC CAS 等 过 程 步 ， 这 种 过 程 步 可 包含 多 
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个 RUN 语句 ， 但 只 有 在 遇 到 QUIT 语句 时 SAS 才 释 放 系 统 资源 返回 当前 SAS 会 话 。 


e 全 局 语句 : 在 DATA 步 或 PROC 步 之 外 ，SAS 还 包括 若干 全 局 语句 ， 通 常用 于 指 


定 全 局 选项 或 者 其 他 全 局 性 的 功能 。 比 如 TITLE 语 名 就 可 用 来 指定 后 续 PROC 步 
输出 报告 的 标题 文字 ， 其 中 TITLE# (# 为 数字 ， 如 TITLE?) 全 局 语句 可 用 来 指 
定 特定 级 别 的 标题 ， 最 多 可 达 11 级 。 如 果 和 希望 在 输出 的 图 表 中 关闭 特定 级 别 的 
报表 标题 ， 用 户 可 以 无 参数 调用 TITLE 语句 来 实现 。 比 如 程序 1-2 可 设置 报表 
输出 的 标题 。 


程序 1-2 全 局 语句 

title "The title of my first report"; /* 设 置 输出 报告 的 标题 */ 
title2 "Author: Yinliang Wu"; /* 设 置 第 二 级 的 报告 标题 */ 
title; /* 关 闭 报告 标题 */ 


各 种 SAS 选项 语句 也 属于 全 局 语句 ， 功 能 上 类 似 于 操作 系统 的 环境 变量 ， 不 过 


语言 


它 
用 来 指定 当前 SAS 会 话 有 关 的 系统 设置 ， 如 程序 1-3 用 于 设置 当前 会 话 (Session) 的 
区 域 属 性 (Locale) 为 英文 ， 此 时 后 续 的 过 程 步 都 会 受 此 选项 影响 输出 英文 语言 


的 报告 。 


程序 1-3 全 局 语句 
options locale=en_US;/* 设 置 会 话 的 语言 区 域 属性 */ 


@ DATA 步 : 数据 步 负 责 为 后 续 数据 步 或 过 程 步 准备 待 分 析 的 数据 ， 它 是 SASi 


核心 的 组 成 部 分 之 一 。 其 基本 语法 为 


data mydata; 


< 语句 和 数据 >; 


run; 


比如 程序 1-4 创建 一 行 具有 5 列 的 数据 表 ， 其 中 Name 和 Sex 是 字符 型 变量 ， 其 他 
3 个 为 数值 型 变量 。 它 与 系统 数据 集 sashelp.class 的 表 结 构 类 似 。 


程序 1-4 DATA 步 范例 
data mydata; 


input Name $ Sex $ Age Height Weight; 
datalines; 


LEON M 30 175 83.5 
run; 


€ PROC 步 : SAS 过 程 步 是 执行 特定 任务 的 一 系列 SAS 语 句 的 集合 ， 它 以 PROC 语 


句 开始， 一 般 到 下 一 个 RUN 语 和 句 结束 ; 如 前 所 述 ， 某 些 PROC 如 PROC SQL 允 许 
有 多 条 RUN 语 句 提交 代码 到 DBMS 内 执行 ， 但 只 有 当 该 PROC 最 后 一 个 QUIT 语 
名 运行 后 才 会 释放 资源 返回 SAS 会 话 环境 。 每 个 过 程 步 都 有 自己 特定 的 SAS 语 
句 ， 也 有 很 多 过 程 步 共 享 相同 的 SAS 语句 和 参数 选项 ， 如 几乎 所 有 的 过 程 步 都 
有 data= 参数 用 来 指定 待 处 理 的 输入 数据 集 名 称 ( 见 程序 1-5 ) 。 
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程序 1-5 ”BROC 步 范例 

proc contents data-mydata; 

run; 

proc print data-mydata; 
var name height; 

run; 


参数 data=mydata 是 proc contents 和 proc print 两 个 过 程 步 语句 都 有 的 选项 ， 用 来 指 
定 过 程 步 的 输入 数据 集 。 如 果 过 程 步 没有 指定 data= 参数 ， 则 系统 默认 使 用 当前 SAS 
会 话 中 最 后 使 用 或 生成 的 那个 数据 集 ， 该 数据 集 的 名 称 也 存在 于 当前 会 话 的 系统 宏 变 
量 &SYSLAST。 


e 程序 注释 : 代码 注释 通常 用 于 标注 不 可 执行 的 文本 ， 如 描述 程序 的 功能 ， 或 出 于 生 
成 文档 的 目的 在 代码 中 添加 说 明 性 文本 。 注 释 还 可 用 来 在 调试 代码 过 程 中 将 已 经 
调试 好 的 SAS 代 码 暂 时 隔离 ， 当 代码 运行 时 注释 中 的 代码 会 被 编译 器 自动 忽略 ， 但 
SAS 注 释 依 然 会 被 写 入 SAS 日 志文 件 。 鉴于 SAS 宏 本 质 是 文本 替换 ， 需 要 特别 注意 的 
一 点 是 在 MACRO 宏 代码 中 应 尽量 使 用 块 注释 ， 谨慎 使 用 行 注释 以 免 导致 不 期 望 的 宏 
展开 ， 宏 代码 中 使 用 行 注 释 应 中 以 %* 开始 ， 分 号 结束 。SAS 块 注释 和 行 注释 如 下 。 


(D 块 注释 : SAS 语言 支持 C/C++ 和 Java 等 语言 广泛 使 用 的 块 注释 ， 它 以 * 开 
始 ， 以 后 续 最 近 的 */ 号 结束 , 注释 可 以 包含 分 号 以 及 任何 长 度 的 文本 ,也 可 以 跨行 CI 
程序 1-6) 。 但 SAS 代码 不 支持 嵌 套 使 用 块 注释 。 


proc contents data-mydata; 
run; 


(2) TER: 行 注释 以 星 号 “* ”开始 ， 结 束 于 最 近 的 一 个 分 号 “;” 处 。 虽 然 它 可 
注释 多 行文 本 ， 但 它 总 是 以 最 近 的 一 个 分 号 〈 包 括 引号 中 的 分 号 ) 结束 ; 其 设计 初 囊 用 
于 调试 过 程 中 注释 掉 单 行 语句 ， 跨 多 行 的 文本 建议 使 用 块 注释 以 免 产 生意 想不到 的 结果 。 
( 见 程序 1-7) o 
程序 1-7 (iE 
* 行 注释 1…; 
proc contents data-mydata; * 行 注释 2…; 
* 行 注释 3…; 
run; 
虽然 SAS 代码 在 格式 上 具有 很 强 的 灵活 性 ， 但 良好 的 代码 风格 能 提高 代码 的 可 读 性 
和 可 维护 性 。 因 此 ， 一 般 情 况 下 请 遵循 如 下 SAS 代码 格式 化 规范 ， 使 SAS 代码 具有 较 
强 的 可 读 性 。 
(OD 全 局 语句 、DATA / PROC 步 语句 、 步 结束 语句 RUN / QUIT 等 语句 应 开始 于 
第 一 列 ， 而 其 他 子 语句 通常 采用 逐 级 缩 进 ， 以 显示 层次 结构 关系 。 
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(2) SAS 步 与 步 之 间 通 常用 空 行 分 隔 ， 以 表示 SAS 代码 的 编译 边界 ， 方 便 代 码 错 
G) 当 单 行 代码 因 参 数 较 多 导致 长 度 较 大 时 ， 应 折 行 处 理 ， 并 在 该 语句 的 结束 分 
号 后 加 上 一 个 空 行 。 

总 的 来 说 ， SAS 的 DATA 步 和 PROC 步 是 SAS 语言 对 数据 分 析 工作 的 精妙 抽象 和 
完美 封装 ， 数 据 步 主 要 解决 待 分 析 的 数据 结构 和 数据 准备 问题 ， 而 过 程 步 解决 特定 分 析 
方法 和 流程 的 实现 和 封装 ， 这 两 种 SAS 步 就 像 数 据 结构 和 算法 设计 ， 大 体 上 分 别 负责 数 
据 结 构 和 算法 逻辑 实现 。 只 有 当 需 要 更 加 复杂 的 自 定义 数据 处 理 和 分 析 算 法 时 ， 才 需要 
后 面 章 节 中 将 会 讲 到 的 各 种 函数 封装 进行 扩展 。 


1.2 编程 环境 


SAS 编程 需要 使 用 什么 样 的 开发 环境 ? 其 实 它 跟 其 他 计算 机 语言 一 样 ， 可 用 任何 纯 
文本 编辑 器 编写 SAS 代码 ， 如 Windows 平台 的 记事 本 ，NotePad+ + 或 者 UltraEditor 工具 。 
也 可 以 使 用 UNIX 上 的 vi 来 编辑 代码 ， 不 过 需要 注意 的 是 Windows 平台 使 用 回 车 换行 符 
CRLF 而 Unix 平台 使 用 换行 符 LF 进行 文本 换行 。 用 文本 编辑 器 生成 的 SAS 代码 文件 ， 其 
文件 编码 (File Encoding) 需要 与 SAS 运行 时 的 会 话 编码 〈Session Encoding) 匹配 ， 和 否则 可 
能 出 现 不 期 望 的 乱码 或 程序 行为 。 这 并 不 是 SAS 语言 编程 特定 的 文件 处 理 问题 ， 而 是 所 有 
编程 语言 都 会 面临 的 源 代 码 文件 编码 和 编译 器 读 取 文 件 的 所 采用 的 编码 之 间 的 匹配 问题 。 

在 SAS 执行 环境 中 检查 当前 SAS 会 话 编码 , 可 使 用 PROC OPTIONS 过 程 步 检查 ( 见 
程序 1-8) ， 它 会 输出 当前 SAS 系统 使 用 的 默认 语言 区 域 设置 以 及 字符 集 编码 信息 。 

程序 1-8 ”检查 当前 SAS 会 话 的 Locale/Encoding 设置 


Proc options option=(locale encoding); 
run; 


对 于 用 户 用 文本 编辑 器 编写 好 的 SAS 代码 ,如 何 用 命令 行 方式 编译 运行 SAS 代码 ? 
对 于 已 经 安装 好 SAS 环境 的 机 器 ， 用 户 只 需要 调用 sas.exe 然后 指定 -sysin 命令 行 参数 
将 SAS 代码 文件 的 全 路 径 传 递 给 SAS 即 可 。 默 认 SAS 代码 运行 后 生成 的 日 志文 件 会 输 
出 到 当前 路 径 ， 用 户 也 可 以 使 用 命令 行 参数 -log 进行 指定 。 比 如 : 


C:\>"C:\Program Files\SASHome\SASFoundation\9.4\sas.exe" 
-sysin C:\temp\helloworld.sas -log C:\temp\helloworld.log 


SAS 默认 使 用 配置 文件 为 C:\Program Files\SASHome\SASFoundation\9.4\sasv9.cfg， 
也 就 是 当前 机 器 上 安装 SAS 时 生成 的 默认 配置 。 检 查 该 文件 的 内 容 可 发 现 它 默 认 指 向 
T SAS 安装 目录 下 面 的 某 个 语言 特定 的 配置 文件 。 比 如 在 中 文 环境 上 安装 的 SAS， 该 
sasv9.cfg 文 件 的 内 容 如 下 , 表示 默认 使 用 中 文 配置 来 建立 SAS 会 话 环境 并 运行 SAS 代码 。 


-config "C:\Program Files\SASHome\SASFoundation\9.4\nls\zh\sasv9.cfg" 
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如 果 用 户 想 在 中 文 的 环境 上 运行 特定 配置 的 SAS， 如 希望 用 纯 英 文 版 SAS 执行 用 
户 代 码 ， 用 户 只 需要 在 运行 SAS 代码 时 直接 指定 特定 配置 文件 即 可 。 检 查 该 环境 运行 的 
SAS 日 志文 件 将 会 发 现 所 有 的 输出 内 容 变 成 了 英文 文本 。 

C:\>"C:\Program Files\SASHome\SASFoundation\9.4\sas.exe" 


-config "C:\Program Files\SASHome\SASFoundation\9.4\nls\en\sasv9.cfg" 
-sysin C:\temp\helloworld.sas -log C:\temp\helloworld.log 


同 理 ， 如 果 想 用 英文 版 SAS 执行 代码 但 程序 中 又 要 支持 处 理 中 文 数据 ， 用 户 则 可 以 
使 用 SAS 安装 目录 中 的 nls\ld\sasv9.cfg 配置 文件 ， 如 果 想 用 Unicode 版 本 的 SAS 来 运 
行 代码 ， 则 需要 使 用 nls\u8\sasv9.cfg 配置 文件 。 


图 形 用 户 界面 


由 于 SAS 被 设计 用 于 数据 分 析 ， 因 此 更 常见 的 情况 是 利用 图 形 用 户 界面 (GUI) 
来 编写 SAS 代码 并 调试 运行 。 只 有 开发 完毕 后 才 用 上 面 提 到 的 命令 行 方 式 包装 到 后 
台 静 默 执 行 或 者 作为 操作 系统 服务 运行 。 到 目前 为 止 开 发 SAS 程序 ， 通 常 在 如 下 4 
种 环境 之 一 进行 。 

(1) Base SAS 运行 环境 : 在 机 器 上 单独 安装 SAS Foundation 软件 ， 然 后 在 SAS 图 
形 界面 中 进行 编程 。 这 是 SAS 最 传统 和 最 常见 的 SAS 编程 环境 。 

(2) SAS Enterprise Guide〈 简 称 EG) Windows 客户 端 环 境 : 它 是 运行 在 Windows 
平台 比 Base SAS 更 高 级 的 SAS 企业 客户 端 。 用 户 即 使 不 熟悉 SAS 编程 语言 ， 也 能 够 用 
鼠标 拖 搜 的 方式 利用 EG 快速 进行 可 视 化 编程 。EG 是 独立 于 SAS 运行 环境 的 一 个 客户 
端 产 品 ， 它 需要 调用 本 地 安装 的 Base SAS 运行 环境 ， 或 者 连接 到 远程 安装 的 SAS 环境 
来 执行 生成 的 SAS 代码 ， 远 程 的 SAS 环境 可 以 是 SAS Workspace Server 或 SAS Stored 
Process Server 服务 器 ，EG 客户 端 使 用 SAS Integration Technologies 的 集成 对 象 模型 

AOM) 与 后 台 进 行 通信 。 

(3) SAS Studio 浏览 器 客户 端 环 境 : 它 是 基于 浏览 器 的 Web 客户 端 ， 让 用 户 可 以 
在 本 机 不 安装 SAS 和 Enteprise Guide 等 客户 端的 情况 下 进行 SAS 编程 。SAS Studio 中 
提交 的 代码 通过 SAS 互联 网 基础 设施 平台 (WIP) 或 Viya 组 件 运行 在 远程 服务 器 上 ， 
远程 服务 器 处 理 完毕 ， 结 果 会 返回 并 显示 在 SAS Studio 浏览 器 窗口 。SAS Studio 产品 使 
SAS 编程 环境 可 以 部 署 在 云端 ， 而 客户 端 可 实现 零 安 装 部 署 就 能 进行 SAS 编程 和 调试 。 
比如 ，SAS 为 学 术 界 免费 提供 的 云 服 务 SODA， 用 户 只 需 注 册 即 可 实现 随时 随地 进行 
SAS 编程 和 调试 。 

(4) SAS University Edition 虚拟 机 环境 : 即 所 谓 的 SAS 大 学 版 ， 实 际 上 它 是 
SAS 免费 提供 的 虚拟 机 版 本 ， 其 中 不 仅 包括 SAS Studio 和 Base SAS 基本 环境 模块 ， 
还 包括 SAS/STAT、 SAS/IML. SAS/ETS 和 SAS/ACCESS Interface to PC File 等 组 件 ， 主 
要 用 于 SAS 编程 的 学 习 培 训 。 用 户 只 需要 从 SAS 官网 htps:/wwwsas.comy/zh cn/software/ 
university-edition html 下 载 虚拟 机 即 可 。 另 外 ， 用 户 也 可 以 在 亚马逊 AWS 网 站 上 创建 亚马逊 
账号 ， 然 后 在 “Marketplace” 中 输入 “SAS University Edition” 找到 SAS 大 学 版 ， 随 后 按照 
提示 启动 编程 界面 。 亚 马 逊 的 AWSMarketplace 网 址 为 https://aws.amazon.com/marketplace。 
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由 于 数据 分 析 系统 的 特殊 性 ，SAS 编程 环境 界面 大 体 包含 以 下 几 个 基本 窗口 : 

€ 编写 /提交 SAS 代码 的 [程序 ] 窗 口 或 [代码 ] 窗口 ; 

€ 查看 SAS 代码 运行 细节 的 [日 志 ] 窗口 ; 

e 显示 输出 结果 的 [输出 ] 窗口 。 

比如 在 Base SAS 的 代码 窗口 中 输入 前 面 的 HelloWorld 程序 ， 点 击 菜单 [运行 R 一 [ 提 
AE (S) 就 可 看 到 程序 运行 结果 ， 用 户 也 可 以 直接 点 击 工具 栏 上 的 运行 按钮 ， 或 直接 按 ES A 
捷 键 提交 代码 运行 ， 这 样 就 可 在 日 志 窗 口中 看 到 提交 代码 的 执行 细节 和 结果 。 

* Base SAS 环 境 ( 见 图 1-3 ) 。 


B sas ai o x 
| XD WE) WAV IAD FAA WERAXG) SOW VH 
~ -| DEE Sat ean 5a axoe 


Em. e 


data muni; 
put "THE POVER TO KNOU"; 
Bo se 


[Tc poven Te rw 
sii 


Nores Data 3 Bu" 所 用 时 间 ， (点 处 理 时 间 ) : 
SUE inb 
[DI D 


mul. 
put “TIE 1 Jorr, p morr: 
put 

run 


[Bum - aisksmag || Des. Gem | 日 s= cwm — [imam xem- 
NOTE: 提交 了 4 Fe © CAUsersebjyiw tn4 Cel 5 


图 1-3 BaseSAS 环境 


* SAS Enterprise Guide 环境 ( 见 图 1-4) 。 


@ SAS Enterprise Guide - o x 


apo - maam- EY [ET 


THE POWER TO KNOW 


— Since 1976 — 
NOTE: "DATA 语句 ”所 用 时 间 〈 总 处 理 时 间 ) 
实际 时 间 ry = 
CPU 时 间 0.00 © 
isl 
| ——ooAÀ. O T- 
ame Ra SBE 
加 让 EECTETERE EL wasn0 -wero | | 
Edata null; " 
put "THE POWER TO KNOW”; | 
put "— Since 1976 —"; 
run; 
u 
[omno] [As 0 [Oe | 
LÀ LEE ^ 
Q MOTE ESSA vos eee eos (EM) X a openteepr en 
[RE E 


E ESCIENES 003 


1-4 SAS Enterprise Guide 环境 
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€ SAS Studio 环 境 ( 见 图 1-5 ) 。 


SAs studio - “a> 


S Q | © localhost:65105/main?locale-zh CN&zone- GMT965252B0896253, 


~ 文件 和 文件 严 Bum x 


e 8 £ T BO 代码 日 志 结果 
上 EXCESS X € Huamomnmaoo0-7-*& © 
"Bos *&* UE EAE- 
BUA 1 data _null_; 

put "THE POWER TO KNOW"; 

put "-- Since 1976 --"; 


á run; 


» 任务 和 实用 程序 

» 代码 段 

» 逻辑 库 

， 文件 快捷 方式 L ELE PLI urra 
Qs 用 户 : :bjyiw 


1-5 SAS Studio 环境 


当 SAS 代码 提交 编译 运行 时 ，SAS 会 自动 检查 语法 错误 ， 如 果 发 现 语法 错误 ， 错 
误 信 息 会 输出 到 SAS 日 志 窗 口 。 语 句 中 常见 语法 错误 包括 关键 字 拼 写 错 误 、 无 效 选项 、 
引号 不 匹配 ， 以 及 语句 结束 符 分 号 缺失 等 问题 。 

SAS 语法 错误 分 为 ERROR 和 WARNING 两 大 类 ， 分 别 以 红色 和 绿色 显示 。 红 色 的 
信息 包括 错误 所 在 的 行 和 列 ， 以 及 对 错误 的 详细 描述 ， 红 色 的 错误 需要 用 户 仔细 检查 并 
加 以 修正 ， 而 绿色 警告 不 妨碍 后 续 程 序 的 运行 。 

由 于 SAS 编译 器 具有 强大 的 拼写 错误 容错 能 力 ， 它 能 够 智能 修正 的 错误 被 归 入 
WARNING 类 ， 代 码 依然 能 正常 运行 。 而 红色 表示 SAS 未 能 修正 的 错误 ， 用 户 必 须 修正 
后 才能 正常 执行 。 比 如 程序 1-9 示例 代码 依然 能 正常 运行 ， 尽 管 PROC PRINT DATA 等 
JU ob SEDES SET CE TARDO ， 其 仍 能 输出 如 图 1-6 所 示 结 果 。 

程序 1-9 检查 sas 代码 容错 能 力 


procx printx datax-sashelp.class; 
run; 
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Bus [asap ]| 日 B=- cem — |utaem xem — [Inemesm ss ow | 


ET 


图 1-6 语法 容错 能 力 


对 于 一 些 参 数 错 误 ， 如 指定 了 不 存在 的 数据 集 sashelp.classx，SAS 则 会 报告 
ERROR 错误 。 
59 proc print data=sashelp.classx; 


ERROR: 文件 "SASHELP .CLASSX.DATA" 不 存在 。 
60 run; 


很 多 时 候 正 是 因为 SAS 运行 环境 对 代码 的 容错 能 力 太 强 ， 一 些 错误 会 隐藏 得 较 深 ， 
不 能 被 用 户 立即 发 现 。 因 此 用 户 可 采用 分 块 调试 的 办 法 将 语法 错误 限制 在 最 小 的 范围 内 。 
比如 下 面 一 行 代码 ，SAS 在 第 三 次 提交 的 时 候 才 会 报告 错误 。 


title "Hello World; 


SAS 程序 主要 由 数据 步 (DATA Step) 和 过 程 步 (PROC Step) HR, SAS 编译 器 会 
按 步 编译 运行 。 如 果 没 有 语法 错误 则 会 启动 编译 与 执行 ， 重 复 这 个 过 程 直 到 所 有 的 SAS 
程序 “ 步 ” 被 处 理 完毕 。 

当代 码 编辑 窗口 被 激活 时 用 户 可 以 随时 点 击 菜单 [文件 G)] 一 [保存 O 来 保 
存 你 的 代码 。SAS 使 用 默认 文件 编码 保存 程序 ， 如 在 中 文 SAS 环境 上 默认 使 用 的 是 
Simplified Chinese. (EUC) 编码 。 用 户 也 可 以 在 保存 代码 对 话 框 中 指定 Unicode UTF- 
8、 Unicode (UTF-16LE) 或 Unicode (UTF-16BE) 编码 格式 进行 保存 ， 同 时 也 可 指定 
是 否 输出 字 节 顺序 标记 (Byte Order Mark, BOM) 进行 存储 。 

字 节 顺序 标记 BOM 就 是 用 于 告诉 文件 处 理 程序 在 读 取 文 件 内 容 时 ， 该 目标 文件 
的 正确 编码 。BOM 约定 对 进 制 文件 最 开始 的 2 字 节 或 3 字 节 进行 特殊 处 理 ， 如 果菜 个 
文件 的 前 3 个 字 节 为 十 六 进 制 值 的 EF BB BF， 则 表明 该 文件 为 UTF-8 有 BOM 的 编码 
格式 文件 ， 如 果 前 2 个 字 节 的 十 六 进 制 为 FF FE 或 FE FF， 则 分 别 表示 文件 为 UTF-16 
Little Endian 或 UTF-16 Big Endian 编码 格式 。 
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对 于 Hello World 程序 ， 你 可 能 会 有 疑问 一 一 为 什么 有 输出 窗口 却 没有 任何 输出 信 
息 ? SAS 程序 的 输入 输出 与 传统 编程 语言 的 文件 VO 不 同 ，SAS 的 输出 窗口 是 给 前 面 提 
到 的 SAS ODS 输出 交付 系统 的 LISTING 目标 使 用 的 。 由 于 Hello World 程序 没有 任何 
ODS 输出 ， 只 调用 了 PUT 语句 输出 日 志 ， 因 此 输出 窗口 没有 结果 。 程 序 1-10 尝试 创建 
一 个 SAS 数据 集 ， 然 后 将 该 数据 集 打 印 到 输出 窗口 。 


程序 1-10 ”建立 数据 集 并 输出 到 结果 窗口 
title "My data"; 
data mydata; 
Name-"Yinliang"; 
Sex-'M'; 
Age-30; 
Height-175; 
Weight-83.5; 
run; 


ods all close; * 关 闭 所 有 的 ODS 目标 ; 

ods listing; * 打 开 ODS Listing 目标 用 于 输出 ; 
Proc print data=mydata; 

run; 


提交 代码 执行 后 ，SAS 首先 创建 数据 集 WORK.MYDATA, WORK 是 SAS 运行 默 
认 的 SAS 逻辑 库 。 在 输出 窗口 ( 见 图 1-7) SAS 会 打印 出 用 户 生 成 的 数据 集 WORK. 
MYDATA. 


[ sas e n 
XD SAO REV IAD ZFA MGSXG) SOW WE) 
v -jDeWé&ul:»e-tm&gisxoe 


27x41] 6 日 星期 一 下 午 是 时 
Obs Nane Sex Age Height Weight 


1 vinliang " ELI 175 83.5 


< 
Asusa- Dat- (368) 


© CUsers\sbjyiw in 8 Col 17 


图 1-7 WORK.MYDATA 内 容 


需要 查看 SAS 数据 集 的 数据 结构 和 定义 时 ， 可 以 使 用 PROC CONTENTS 过 程 步 进 
行 查看 。 


proc contents data-mydata; 
run; 
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执行 结果 将 显示 在 输出 窗口 ( 见 图 1-8) 。 可 以 看 到 数据 集 编码 为 “euc-cn 
Simplified Chinese (EUC) ”“， 数 据 表 示 法 为 Windows 64， 表 示 数 据 是 在 Windows 64 
位 的 平台 上 生成 。 在 与 引擎 /主机 相关 的 信息 中 , 文件 名 是 数据 集 在 磁盘 上 的 存储 路 径 。 
最 后 一 节 则 是 数据 集中 所 有 变量 的 类 型 和 长 度 ， 可 以 看 到 包括 数值 和 字符 两 种 类 型 ， 数 
值 的 默认 长 度 为 8 字 节 。 


s 8 


reni rHied SAU Taw = 


sbjylu\appnata\Local\Temp\sas Temporary Files TB2222^ zo Jylw. wodata.sas7büat 


| Eee ems | cem 


Jeaus 


图 1-8 数据 集 的 元 数据 信息 


Base SAS 需要 在 单机 环境 或 者 服务 器 环境 下 单独 安装 ， 下 一 节 将 展示 如 何 实现 不 安 
装 任何 SAS 运行 环境 ， 就 可 在 Web 浏览 器 中 随时 随地 编写 自己 的 SAS 代码 。 


1.3 SAS Studio 编程 


SAS 软件 具有 巨大 的 商业 价值 ， 一 般 的 人 很 难 获得 最 新 的 安装 拷贝 。 读 者 该 如 何 学 
习 SAS 编程 呢 ? SAS 考虑 到 全 球 不 断 增 长 的 数据 分 析 需 求 以 及 体现 对 学 术 研究 领域 的 
一 贯 支持 ，SAS 提供 基于 SAS 私有 云 的 SAS Studio 应 用 服务 SODA。 

SODA 全 称 SAS” OnDemand for Academics 是 SAS 为 学 术 群 体 提供 的 免费 在 线 应 用 
服务 环境 。 运 行 在 SODA 上 的 SAS Studio 可 以 让 你 在 任何 时 间 、 任 何 地 点 编写 / 运行 自 
己 的 SAS 分 析 代 码 ， 而 且 所 有 用 到 的 数据 和 代码 都 会 存储 在 SAS 私有 云 。 这 是 目前 除 
了 在 本 地 安装 强大 的 SAS 系统 外 ， 学 习 使 用 SAS 程序 开发 成 本 最 低 和 最 快捷 的 方式 ， 
用 户 只 需要 一 个 电子 邮箱 账号 和 浏览 器 即 可 。 

COD 在 浏览 器 中 输入 网 址 https://odamid.oda.sas.com/SASODARegistration 访问 
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SAS”? OnDemand for Academics (IE 1-9) ， 按 要 求 提 交 必 要 信息 注册 SODA 账号 ， 你 
的 邮箱 将 会 收 到 用 户 IDP， 该 用 户 ID 将 会 在 后 面 用 来 登录 SODA 控制 中 心 来 使 用 SODA 
提供 的 应 用 服务 。 


图 1-9 注册 SODA 账号 界面 


(2) 注册 完成 后 ， 通 过 网 址 https://odamid.oda.sas.com 访问 SODA 控制 中 心 。 
注册 完成 后 ， 用 户 并 不 能 马上 收 到 注册 信息 ， 需 要 耐心 地 等 待 一 段 时 间 。 登 录 SODA 控 
制 中心 时 ， 需 要 使 用 邮件 中 收 到 的 【用 户 ID】 和 【用 户 密码 】， 其 中 【用 户 ID】 并 不 
是 邮箱 地 址 yinliangwu@gmail.com， 而 是 SODA 分 配 的 用 户 ID， 如 yinliangwu0。SODA 
登录 界面 如 图 1-10 所 示 。 


110 登录 SODA 界面 


登录 后 ， 系 统 将 引导 用 户 到 SAS ODA 的 控制 中 心 〈 见 图 1-11) 。 页 面 上 用 户 会 看 
到 一 个 SAS? Studio 应 用 ， 点 击 它 即 可 启动 SAS” Studio 应 用 。 
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ESE 


€ > CŒ a St ————— ?了 立 ] 


Name Description. Institution 


图 1-11 SODA 面板 


用 户 也 可 在 登录 SAS ODA 控制 中 心 后 ， 直 接 在 浏览 器 中 输入 如 下 网 址 访问 SAS 
Studio 应 用 https://odamid.oda.sas.com/SASStudio. 目前 在 SODA 上 提供 服务 的 SAS 
Studio 为 3.5 企业 版 ， 它 支持 Chrome 27+, IE9/IE11, Firefox 21+ 和 Apple Safari 6.0+ 以 
上 版 本 的 浏览 器 。 后 台 SAS 服务 器 为 Linux 64 位 版 本 的 SAS、SAS Studio 为 用 户 提供 


了 一 个 编写 和 远程 执行 SAS 程序 的 高 效 Web 开发 环境 。 


(3) SAS Studio 主 界面 包括 顶部 的 菜单 栏 、 左 侧 的 导航 面板 和 右 侧 的 内 容 窗 口 〈 见 
E 1-12) 。 导 航 面 板 包括 “服务 器 文件 和 文件 夹 ”“ 任 务 和 实用 程序 ”“ 代 码 段 ”“ 届 
辑 库 ”“ 文 件 快捷 方式 ”和 “SAS 文件 夹 ”等 模块 。 其 中 “服务 器 文件 和 文件 夹 ” 和 “ 届 
HE” 比较 常用 ，“ 服 务 器 文件 和 文件 夹 ” 是 用 户 在 云端 服务 器 上 的 磁盘 存储 空间 ， 一 


般 映 射 到 用 户 特定 的 主 目录 /home/<userid>， 如 /home/yinliangwu0。 


* 任务 和 实用 程 床 
» RISE 


图 1-12 SAS Studio 主 界面 
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右 侧 提供 了 程序 窗口 〈 见 图 1-13) ， 包 括 “ 代 码 ” “日 志 ” 和 “结果 ”3 个 窗口 。 
一 般 步 骤 是 在 代码 窗口 中 输入 SAS 程序 ， 然 后 点 击 代码 页 签 工 具 栏 最 左边 的 运行 按钮， 
或 者 直接 按 F3 功能 键 直接 执行 代码 。 比 如 : 


EE I 


» 任务 和 实用 程序 


1-13 SAS Studio 程序 窗口 


执行 日 志 可 以 查看 SAS Studio 日 志 窗 口 〈 见 图 1-140. ， 包 括 提交 的 源 代码 信息 。 


1 OPTIONS NONOTES NOSTINER MOSOURCE NOSYNTAXCHECK; 


56 data NULL ; 
put Power 


NONOTES NOSTINER NOSOURCE NOSYNTAXCHECK; 
e) 


Nd 


OH: MP ime 


图 1-14 SAS Studio 日 志 窗口 


结果 窗口 是 用 来 输出 ODS 结果 的 ， 用 户 可 以 在 程序 中 输入 如 下 代码 ， 然 后 按 F3 功 
能 键 运行 SAS 代码 即 可 看 到 ODS 输出 结果 。 在 SAS 中 一 般 PROC 步 会 将 分 析 的 结果 输 
出 到 ODS 目标 〈 见 图 1-15) 。 


proc print data-sashelp.class; 
run; 


E SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


4 服务 器 文件 和 文 
A " 


BE 
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图 1-15 SAS Studio 结果 窗口 


在 分 析 中 用 户 需 要 上 传 自己 的 数据 文件 ， 可 以 点 击 左 侧 导航 面板 中 的 “文件 〈 主 目 


录 ) ”， 然 后 在 菜单 中 选择 “上 载 文件 


〈 见 图 1-16) 。 


Xt ines 
rss I 


1 OPTIONS NONOTES NOSTI 


proc print data=sashe 


DE) 


SOURCE NOSYNTAXCHECK; 


7 19 43M 
BATAIN) : 


[II MA Wins 


图 1-16 上 载 文 件 到 主 目录 


在 弹出 对 话 框 ( 见 图 1-17) 中 单 击 “ 选 择 文件 ”， 然 后 选择 本 地 计算 机 上 的 数据 文 


件 上 传 到 远程 服务 器 ， 如 C:\temp\class.csv。 


第 1 章 SASEN C 


图 1-17 “上 载 文件 ”对 话 框 


上 传 完毕 在 左 侧 的 导航 面板 “文件 〈 主 目录 ) ”中 将 出 现 class.csv 文件 ， 表 明 该 文 
件 已 经 上 传 到 云端 。 如 果 要 将 该 csv 数据 导入 SAS 系统 ， 用 户 可 以 双击 它 ，SAS Studio 
会 自动 生成 导入 数据 所 需 的 SAS Code， 用 户 也 可 以 选择 不 同 的 参数 进行 数据 导入 。 

云端 的 SAS 环境 为 了 让 全 球 所 有 用 户 都 能 使 用 、 支 持 所 有 语言 和 国家 地 区 的 用 户 ， 
其 默认 数据 文件 被 设置 为 UTF-8 编码 。 但 在 中 文 Windows 环境 下 SAS 生成 的 文本 文 
件 默认 是 GB2312/GBK 编码 ， 用 户 可 以 使 用 记事 本 的 “另存 为 ”功能 ， 将 文件 转 存 为 
UTF-8 编码 格式 即 可 完成 转 码 工作 。 比 如 ， 如 果 用 户 上 传 一 个 本 地 Windows 导出 的 csv 
文件 ,而 在 SAS 导入 的 时 候 会 默认 上 传 的 文件 是 UTF-8 编码 格式 ， 此 时 就 会 出 现 乱码 。 
解决 方法 如 下 所 述 。 

COD 使 用 记事 本 或 其 他 文本 工具 (如 Notepad++ 或 Ultra Editor) 将 数据 文件 打开 ， 
然后 使 用 “另存 为 ”， 选 择 UTF-8 编码 保存 即 可 进行 转 码 。 

(2) 用 户 也 可 在 数据 导入 的 SAS 代码 中 明确 指定 待 输入 文件 的 正确 编码 方式 ， 由 
SAS Proc Import 进行 编码 转换 ， 将 数据 正确 导入 SAS 数据 集 ， 其 默认 编码 为 UTF-8。 

如 果 用 户 上 传 的 是 使 用 Windows 导出 的 csv 文件 ， 用 户 需 要 在 将 该 文件 导入 时 明确 
指定 该 输入 文件 为 GB2312 编码 ， 步 又 如 下 : 双击 class.csv， 然 后 在 右 侧 class 页 签 下 点 
击 “ 编 辑 ”，SAS Studio 会 自动 生成 对 应 的 SAS 代码 “程序 2”( 见 图 1-18) ， 修 改 
FILENAME 语句 如 下 ， 运 行 即 可 正确 导入 数据 。 


filename reffile'/home/yinliangwu0/class.csv' encoding=gb2312; 
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图 1-18 设置 导入 数据 的 文件 编码 


在 结果 窗口 中 可 以 看 到 导入 完毕 的 数据 ， 如 WORK.IMPORT1。 在 缺 省 情况 下 输出 
数据 都 会 放 到 临时 逻辑 库 WORK。 此 时 调用 PROC CONTENTS 输出 的 数据 集 的 元 数据 


信息 如 图 1-19 所 示 。 
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图 1-19 数据 集 的 元 数据 信息 
调用 PROC PRINT 打印 数据 集 内 容 信息 如 图 1-20 所 示 。 
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用 户 可 以 通过 鼠标 右键 点 击 左 侧 导航 栏 下 的 “逻辑 库 / 我 的 逻辑 库 /WORK/ 


IMPORTI" 来 更 改 数据 集 名 称 ， 如 改 为 WORK.CLASS (WA 1-21) 。 


5818 SAS 语言 入 门 


SAS" Studio 


4 RIERA 
e E àv BOO 
6B odiomr oda sascom 
MB 文件 全 万 元 
AU XE FER 
Dl eser 
[E 


n 
ay 


-| sm[s -| & a | © 
Sfi. Spes W oe s + 
LE NE I FEUD 
Ei 


ms 后 


ssssesu * 


上 任务 和 实用 程序 
» fag 
[2d 
文件 快捷 方式 


3». ee e VEISOHOR ORO ER VENUS 


图 1-20 数据 集 的 数据 内 容 


1-21 更 改 数据 集 名 称 


这 样 ， 用 户 就 可 以 在 本 次 SAS 会 话 期 间 ， 即 在 本 次 登录 SAS Studio 直到 关闭 浏览 
器 退出 SAS Studio 应 用 期 间 一 直 使 用 WORK.CLASS 数据 集 ， 修 改 代码 如 下 ， 即 可 查看 
导入 的 数据 〈 见 图 1-22) 。 


proc print data-WOrk.class; 
run; 


运行 代码 用 户 将 看 到 打印 的 数据 变 为 刚 上 传 后 导入 的 那个 数据 集 WORK.CLASS. 

用 户 也 可 将 自己 的 sas 源 代码 保存 到 云端 的 服务 器 ， 如 用 户 选择 保存 到 “文件 〈 主 
目录 ) ”， 文 件 名 为 PrintClass.sas 即 可 〈 见 图 1-23) 。 

保存 到 服务 器 上 的 文件 /home/yinliangwu0/PrintClass.sas， 从 窗口 下 方 的 状态 栏 中 可 
以 看 到 路 径 〈 见 图 1-24) 。 
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图 1-22 引用 临时 数据 集 
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124 SAS 源 代 码 在 服务 器 上 的 路 径 


由 于 WORK 是 临时 逻辑 库 ， 在 当前 SAS 会 话 结束 时 系统 会 自动 删除 。 如 果 用 户 
想 要 在 服务 器 磁盘 上 永久 保存 该 临时 导入 的 数据 集 WORK.CLASS， 可 以 在 导入 之 前 
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指定 一 个 非 临 时 逻辑 库 来 保存 数据 。 用 户 也 可 以 在 SAS 代码 中 新 建 一 个 非 临 时 逻辑 库 
mylib， 然 后 在 mylib 中 生成 一 份 WORK.CLASS 的 复制 。 

libname mylib "/home/yinliangwu0"; 

data mylib.class; 


set work.class; 
run; 


这 样 用 户 就 可 以 将 打印 class 数据 集 的 代码 改 为 ( 见 图 1-25) : 


Proc print data=mylib.class; 
run; 


图 1-25 在 服务 器 上 生成 永久 性 数据 集 


运行 上 面 的 代码 后 ， 用 户 可 以 看 到 服务 器 的 “逻辑 库 /我 的 逻辑 库 ” 多 了 MYLIB 
逻辑 库 ， 其 中 包括 数据 集 CLASS。 即 使 用 户 关 闭 SAS Studio ， 这 个 数据 集 也 会 一 直 存 储 
在 服务 器 磁盘 上 。 这样 当 用 户 下 一 次 登录 SAS Studio 时 可 以 继续 使 用 该 数据 集 OLE 1-26) 。 
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126 永久 性 逻辑 库 MYLIB 中 的 数据 
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该 数据 集 对 应 的 物理 文件 位 置 就 是 远程 服务 器 odaomr.oda.sas.com 的 磁盘 路 径 / 
home/yinliangwu0/class.sas7bdat( 见 图 1-27) 。 


4 时务 器 文件 和 文件 夫 

区- 6578 

4B osaomroós sascom 
BIS. 
:电文 件 ( 王 目录 ) 


| | a GED 
e I 33 


上 性 务 和 实用 程序 
代码 自 
[E14 

y 文件 快捷 方式 


OEE IE 


[pt 
n 


Qum MP img 


图 1-27 永久 性 逻辑 库 路 径 的 数据 文件 


至 此 ， 用 户 就 完成 了 数据 集 的 上 传 ， 并 将 数据 保存 在 非 临时 逻辑 库 mylib 。 同 时 也 
在 服务 器 上 也 编写 了 SAS 程序 /home/yinliangwu0/PrintClass.sas。 这 样 我 们 就 可 以 随时 退 
H SAS Studio 环 境 。 退 出 SAS Studio 应 用 只 需 点 击 右 上 角 的 “注销 ”菜单 即 可 ( 见 图 1-28)。 
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1-28 注销 SAS Studio 


安全 退出 后 显示 如 下 页 面 ， 应 关闭 浏览 器 清除 客户 端 数据 以 提高 安全 性 〈 见 图 1-29) 。 
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登录 至 SAS? 


图 1-29 已 安全 注销 窗口 


由 于 所 有 数据 都 保存 在 云端 ， 因 此 用 户 下 次 登录 时 所 有 的 数据 和 程序 都 还 在 〈 见 
图 1-30) ， 用 户 可 以 随时 继续 自己 的 分 析 工 作 ， 也 可 以 随时 保存 工作 并 退出 。 
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图 1-30 服务 器 文件 和 文件 夹 


关于 云端 的 SAS Studio 环境 , 以 下 重要 提示 信息 可 用 于 检查 版 本 或 者 设置 系统 选项 。 
(1) 检查 SAS Studio 和 后 台 SAS 系统 的 版 本 信息 : 点 击 右 上 角 “?” 号 ， 然 后 
选择 “关于 SAS?” Studio” 即 可 查看 〈 见 图 1-31) 。 
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图 1-31 检查 SAS Studio 和 后 台 SAS 版 本 号 


Q) 查看 系统 默认 的 文本 编码 : 单 击 右上 角 “ 其 他 应 用 程序 选项 ”按钮 ， 选 择 “ 参 
数 选择 一 常规 一 默认 文件 编码 : UTF-8”， 该 选项 设 定 读 取 和 保存 SAS 程序 代码 的 默认 
编码 格式 〈 见 图 1-32) o 
在 中 文平 台 上 创建 的 SAS 程序 文件 默认 是 GB2312 编码 。 而 SAS SODA 系统 默 
URH UTF-8 处 理 文件 读 写 和 数据 ， 因 此 建议 在 上 传 文件 /上 传代 码 之 前 确保 文件 为 
UTF-8 编码 。 该 选项 并 不 影响 前 面 提 到 的 数据 导入 功能 ， 因 此 即使 修改 此 文本 编码 为 
GB2312， 也 不 会 修正 从 客户 端 上 传 GB2312 编码 的 数据 文件 导入 SAS 系统 环境 ， 更 不 
会 有 文件 编码 GB2312 和 系统 默认 会 话 编码 UTF-8 不 一 致 而 导致 的 乱码 问题 。 
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1-32 SAS Studio 参数 选择 窗口 (常规 ) 
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(3) 在 参数 选择 窗口 “启用 提示 ” 可 以 改善 程序 编辑 器 的 行为 ， 从 而 让 用 户 在 进 
行 SAS 编程 的 时 候 获 得 必要 的 上 下 文 提示 信息 〈 见 图 1-33) 。 


图 1-33 SAS Studio 参数 选择 窗口 (编辑 器 ) 


启用 选项 后 SAS Studio 编辑 器 能 动态 提示 帮助 信息 〈 见 图 1-34) 。 
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图 1-34 SAS Studio 动态 提示 信息 


(4) 在 SAS Studio 中 利用 “代码 段 ” 可 以 方便 让 用 户 重用 某 些 代码 片段 。 比 如 我 
们 可 以 在 代码 编辑 窗口 中 任意 选中 某 些 代码 〈 见 图 1-35) ， 然 后 单 击 工 具 栏 “添加 至 我 
的 代码 段 ”按钮 ， 即 可 命名 特定 代码 片段 。 
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Æ 1-35 SAS Studio 添加 代码 片段 


这 样 用 户 在 新 建 另 一 个 SAS 程序 时 就 可 以 很 方便 地 在 程序 编辑 器 中 通过 双击 左 侧 的 
代码 片段 ( 见 图 1-36) 将 它 添加 到 当前 光标 处 。 


图 1-36 SAS Studio 我 的 代码 段 


比如 下 面 编写 的 一 个 简单 的 显示 MYLIB.CLASS 平均 值 等 简单 统计 量 信息 的 程序 
( 见 程 序 1-11) 。 

libname mylib "/home/yinliangwu0"; 

proc means data-mylib.class; 
var "年 龄 "rn "身高 (英寸 ) "n "体重 ( 磅 ) "n ; 

运行 我 们 的 代码 然后 保存 到 MeansClass.sas。 当 我 们 需要 插入 DisplayLogo 信 
息 时 ， 只 需要 将 光标 定位 到 特定 位 置 ， 然 后 双击 左 侧 的 代码 段 即 可 实现 自动 代码 插 
入 ( 见 图 1-37) 。 
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图 1-37 SAS Studio 插入 代码 片段 


(5) 创建 自动 执行 代码 : SAS 支持 在 系统 启动 时 自动 执行 某 些 程序 。 比 如 我 们 
希望 保存 在 磁盘 特定 目录 中 的 数据 文件 ， 在 每 次 登录 SAS 工作 环境 时 都 可 以 用 于 分 
HT, 此 时 我 们 可 将 libname 语句 指向 它 所 在 目录 , 并 加 入 Autoexec.sas 文件 中 即 可 ( 见 
图 1-38) 。 
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图 1-38 SAS Studio 自动 执行 代码 CAutoexec.sas) 


相应 的 原 代码 中 libname mylib “/home/yinliangwu0”: 语句 就 可 注释 掉 或 删除 。 
SAS 中 的 autoexec.sas 文件 是 SAS 会 话 启动 时 系统 自动 执行 的 代码 段 。 对 于 SODA 上 
的 SAS Studio 用 户 ， 该 sas 文件 在 用 户 每 次 登录 SAS Studio 时 都 会 自动 执行 。 因 此 ， 
/home /yinliangwu0 路 径 中 的 数据 集 都 会 默认 出 现在 mylib 逻辑 库 中 , 供 后 续 分 析 处 理 用 。 
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操纵 数据 是 数据 学 家 的 重要 工作 内 容 之 一 ， 主 要 用 来 为 数据 分 析 或 创建 报表 准备 
必要 的 内 容 。 传 统 商业 智能 包括 数据 仓库 建 模 (Data Warehouse Modeling) 、 联 机 
分 析 处 理 (Online Analytical Processing, OLAP) 和 数据 挖掘 (Data Mining, DM) 。 
其 中 数据 仓库 建 模 后 的 数据 准备 工作 由 ETL 或 ETCL 作业 完成 ， 具 体 包 括 数据 的 抽 
取 (Extract) 、 转 换 (Transformation〉、 清 洗 (Clean) 和 加 载 (Load) FAX, 
传统 的 ETCL 在 现代 商业 分 析 领 域 已 发 展 为 包括 各 种 数据 转换 处 理 的 交互 式 数据 管 
理 〈Data Management) 系统 ， 数 据 处 理 也 是 数据 科学 家 除了 数据 分 析 之 外 的 日 常 
工作 as 

SAS 组 织 管理 数据 的 最 基本 单位 是 SAS 逻辑 库 CSAS Library) 和 SAS 数据 集 CSAS 
Dataset)。 细心 的 读者 也 许 会 记得 SAS H HelloWorld 程序 , 第 一 行 都 是 以 Data 语句 开头 。 
那 是 因为 SAS 语言 就 是 面向 数据 分 析 而 设计 的 专门 语言 ， 在 SAS 的 程序 世界 里 数据 是 
分 析 的 基础 ， 它 是 数据 到 信息 、 知 识 到 智能 整个 分 析 链 条 的 基石 。 


2.1 SAS Eye 


SAS 逻辑 库 是 SAS 面向 数据 处 理 而 设计 的 存储 和 引用 单位 ， 是 SAS 组 织 数据 的 顶 
级 单位 。 一 个 SAS 逻辑 库 可 以 包含 若干 成 员 (Member) ， 其 中 最 常用 的 成 员 为 SAS 数 
据 集 (SAS Dataset) 。SAS 逻辑 库 和 SAS 数据 集 的 概念 可 分 别 对 应 传统 关系 型 数据 库 

(RDBMS) 的 数据 库 和 数据 表 这 两 个 概念 ， 但 SAS 逻辑 库 比 数据 库 包 含 更 丰富 的 数据 
内 容 和 更 灵活 的 结构 。 

SAS 系统 预定 义 了 若干 系统 逻辑 库 ， 每 次 启动 SAS 运行 环境 (也 称 为 建立 一 个 
SAS 会 话 ) 这 些 系统 逻辑 库 就 已 经 自动 为 用 户 建立 。 根 据 逻辑 库 的 内 容 在 SAS 会 话 结 
柬 后 是 否 存在 ， 可 以 将 逻辑 库 分 为 永久 库 和 临时 库 。 一 般 情 况 下 SAS 默认 包含 5 个 永久 
EM 1 个 临时 库 Work， 其 中 5 个 永久 逻辑 库 分 别 为 Sashelp、Sasuser 以 及 3 个 地 图 专用 
逻辑 库 Maps. Mapssas 和 Mapsgfk. (HuK 2-1 左 侧 “SAS 资源 管理 器 ”所 示 ) o 
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图 2-1 SAS 系统 逻辑 库 


CD 临时 库 : 在 每 次 启动 SAS 运行 环境 的 时 候 ，SAS 都 会 建立 一 个 临时 逻辑 库 
Work。 临 时 库 Work 用 于 在 SAS 会 话 期 间 临 时 存储 和 访问 数据 ， 当 SAS 会 话 结束 ， 即 
退出 SAS 运行 环境 后 ， 临 时 库 Work 和 它 的 内 容 会 被 SAS 系统 自动 删除 。 

在 Windows 平台 的 SAS 环境 中 ， 每 次 启动 一 个 SAS 会 话 ，SAS 系统 会 在 操作 系统 
临时 目录 (系统 环境 变量 %TEMP% 所 指定 ) 下 的 “SAS Temporary Files” 目 录 中 创建 
一 个 会 话 特定 的 临时 路 径 ( 比如: C:\Users\sbjyiw\AppData\Local\Temp\SAS Temporary 
Files TD8212_SBJYIW_) ， 这 是 SAS 当前 会 话 存活 期 间 存放 各 种 临时 数据 的 磁盘 路 径 。 

(2) 永久 库 : 永久 库 中 的 数据 并 不 因 SAS 会 话 结束 而 消失 ， 也 就 是 SAS 运行 结 
柬 后 存在 于 永久 库 的 那些 数据 依然 存在 于 磁盘 或 数据 库 服务 器 。SAS 会 话 中 的 永久 库 由 
SAS 启动 过 程 中 使 用 的 那个 配置 文件 sasv9.cfg 指定 。 

由 于 SAS 支持 几乎 所 有 的 语言 和 编码 ， 在 SAS 安装 环境 中 sasv9.cfg 配置 文件 有 多 
个 ， 默 认 提 供 英文 版 、 支 持 DBCS 的 英文 版 、Unicode 版 和 其 他 十 余 种 语言 特定 的 版 本 。 
它们 分 别 对 应 SAS 安装 后 在 Windows 开始 菜单 中 的 各 启动 项 。sasv9.cfg 也 支持 使 用 
-config 参数 指向 另 一 个 配置 文件 sasv9.cfg 来 重 定 向 系统 设置 ， 从 而 构建 多 层次 的 配置 文 
件 体系 。 

Sashelp 逻辑 库 : 它 是 系统 预定 义 用 于 提供 系统 初始 化 后 可 用 数据 的 系统 逻辑 库 。 逻 
辑 库 Sashelp 在 sasv9.cfg 中 由 以 下 配置 被 映射 到 多 个 目录 ， 表 示 从 这 些 目 录 中 读 取 可 用 
的 数据 集 文件 ， 并 在 SAS 系统 中 随时 可 用 。 这 样 多 个 目录 中 的 文件 在 SAS 会 话 中 都 可 
使 用 SASHELP* 的 形式 进行 引用 。 其 中 ISASROOT 和 !SASCFG 分 别 是 磁盘 上 SAS 的 
根 路 径 和 配置 文件 路 径 。 

-SASHELP ( 

"ISASCFGNSASCFG" 


"!SASROOTAnlsVzhVsashelp" 
"I!SASROOTAcoreNsashelp" 
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Sasuser ZHE: 它 是 系统 预定 义 用 来 在 SAS 会 话 运行 期 间 存 放 当 前 用 户 特 定 的 
数据 。 一 般 用 于 隔离 不 同 SAS 用 户 的 数据 。 比 如 在 Windows 系统 上 ， 多 个 用 户 使 用 
安装 在 同一 路 径 下 的 SAS 软件 ， 各 用 户 对 应 的 Sasuser 逻辑 库 会 被 分 别 映射 到 不 同 的 
用 户主 目录 。 在 以 服务 器 模式 运行 的 SAS 环境 中 ， 来 自 客户 端的 多 个 用 户 在 服务 器 上 
具有 不 同 的 映射 目录 。 

逻辑 库 Sasuser 在 sasv9.cfg 配置 文件 中 是 使 用 -SASUSER 指定 的 ， 通 常 对 应 于 操 
作 系 统 中 的 用 户主 目录 或 者 数据 库 中 的 特定 用 户 数据 库 。 比 如 在 Windows 系统 中 ， 
-SASUSER 被 指向 “?CSIDL PERSONAL\My SAS Files\9.3”， 对 应 的 操作 系统 路 径 为 
用 户 目 主 目录 下 的 某 个 地 址 ， 如 C:\Users\sbjyiw\Documents\My SAS Files\9.3。 

G) 用 户 自 定 义 逻辑 库 : 它 是 用 户 在 SAS 程序 中 用 LIBNAME 语句 建立 的 若干 用 
户 库 ， 用 户 用 它 来 引用 存放 于 磁盘 或 者 数据 库 服务 器 的 持久 化 数据 。 程 序 2-1 基于 系统 
数据 集 SASHELPCLASS 创建 了 用 户 数 据 mylib.foo， 该 存储 实体 保存 在 目录 Ci\temp 中 。 
如 果 希 望 用户 自 定义 逻辑 库 在 每 次 启动 SAS 时 都 可 用 ， 可 将 Lihname 语句 放 到 自动 执 
行 的 autoexec.sas 文件 中 。 


程序 2-1 自 定义 逻辑 库 
libname mylib 'c:\temp'; * 定 义 逻辑 库 mylib; 


* 在 mylib 中 生成 sashelp.class 的 乒 贝 ， 存 于 c:\temp\foo.sas7bdat; 
data mylib.foo; 
set sashelp.class; 


run; 

* 打 印 我 的 数据 mylib.foo, 实际 上 引用 c: NVtempV£oo. sas7bdat; 
proc print data-mylib.foo; 

run; 


如 果 数 据 存储 是 基于 数据 库 而 非 文件 系统 ， 则 SAS 访问 引擎 将 会 隔离 这 种 复杂 
性 ， 只 需要 提供 类 似 ODBC 数据 访问 连接 字符 串 即 可 。 比 如 连接 最 常用 的 SQL Server 
和 Oracle 数据 库 可 以 使 用 如 下 类 似 代码 。 其 中 对 于 Oracle 数据 库 还 要 求 安装 Oracle 
Database Instance Client 客户 端 访问 软件 ， 其 PATH 键 值 可 以 直接 写 连接 串 ， 也 可 以 是 
C:\Program Files (x86)\Oracle\Instant Clientinetwork'admin tnsnames.ora 文件 中 的 访问 入 口 ， 
如 果 XXX= 为 如 下 第 二 段 path= 后 面 引号 内 的 字符 串 ， 则 其 libname 可 以 简化 。 

/* 连接 SQL Server 数据 库 : OLEDB 访问 方式 */ 


Libname mylib oledb user-sa password-foo datasource-"192.168.1.123" 
provider-sqloledb properties-("initial catalog"-MYDB); 


/* 连接 Oracle 数据 库 : 需 Oracle 数据 库 访问 客户 端 */ 

libname mylib oracle user-myuser password-mypasswd 
path-"(DESCRIPTION-(ADDRESS = (PROTOCOL = TCP) (HOST = 
192.168.1.123) (PORT = 1521)) (CONNECT DATA = (SERVICE NAME-ORCL)))" ; 


libname mylib oracle user-myuser password-mypasswd path-XXX ; 


/* BE tnsnames.ora 文件 中 指定 访问 入 口 XXX= (. - .) ， 括 号 中 内 容 为 PATH 字符 串 值 */ 


不 管 SAS 运行 在 Windows 操作 系统 还 是 UNIX 操作 系统 ， 你 的 SAS 代码 总 是 可 用 
相同 的 逻辑 库 引 用 名 (Library Reference Name) 来 引用 你 的 数据 。J 逻 辑 库 引用 名 是 当前 
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SAS 会 话 能 够 识别 的 逻辑 名 称 ， 指 向 某 个 操作 系统 能 够 识别 的 物理 位 置 或 者 数据 访问 引 
擎 的 访问 入 口 。SAS 逻辑 库 引 用 的 根本 作用 是 在 SAS 代码 中 隔离 了 操作 系统 或 数据 库 
系统 的 物理 位 置 ， 提 高 了 SAS 代码 的 可 移植 性 ， 也 就 是 说 任何 数据 在 SAS 代码 中 引用 
的 时 候 都 是 “逻辑 库 . 数据 集 ”， 这 样 就 保持 了 SAS 分 析 代码 的 一 致 性 和 简洁 性 。 

用 户 在 任何 需要 时 可 改变 某 个 逻辑 库 引 用 的 物理 指向 或 者 清除 已 经 分 配 的 某 个 逻辑 
库 引 用 ， 比 如 程序 2-2 改变 逻辑 库 mylib 指向 : 

程序 2-2 ”改变 逻辑 库 指向 或 清除 逻辑 库 


libname mylib "C:\windows"; 


* 注 意 ; 改变 逻辑 库 mylib 的 指向 为 C:\windows; 


libname mylib clear; 

* 注 意 : 清除 逻辑 库 mylib, 此 语句 后 mylib 将 不 再 可 用 ，SAS 并 不 删除 Cc:\temp 目录 中 任何 物理 文件 ， 

只 切断 了 SAS 中 的 引用 标识 而 已 ; 

在 SAS 代码 里 ， 如 果 你 想 要 删除 C:\temp 目录 中 的 物理 文件 foo.sas7bdat, 可 以 调用 
如 下 语句 ( 见 程序 2-3): 

程序 2-3 ”删除 特定 逻辑 库 中 的 数据 集 

proc datasets 1ibrary=mylib;* 磁 盘 上 的 物理 文件 也 相应 删除 ; 

delete foo; 

run; 

在 Base SAS 运行 环境 中 ， 你 可 以 用 鼠标 右键 单 击 逻辑 库 来 查看 逻辑 库 的 属性 ， 可 
查看 到 它 所 映射 的 磁盘 路 径 〈 见 图 2-2) 。 


图 2-2 SASHELP 逻辑 库 属性 


用 户 也 可 用 如 下 代码 查看 Sashelp 映射 的 目录 和 包含 的 内 容 摘 要 ， 相 当 于 列 出 数据 
库 的 摘要 信息 〈 见 程序 2-4) 。 


程序 2-4 列 出 逻辑 库 信息 

proc datasets library=sashelp; 
run; 

quit; 
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你 也 可 以 使 用 LIBNAME 语句 的 LIST ONEA Eae EI PTE 
息 ， 也 可 使 用 关键 字 _ALL_ 列 出 系统 中 所 有 可 用 逻辑 库 的 映射 信息 〈 见 图 2-3) 。 


libname mylib list; 


Xm RRO MEN IAN STU RRO BON HHD 


图 2-3 m 
libname ALL list; 


在 日 志 窗 口中 将 输出 如 下 内 容 〈 见 图 2-4) 。 
OO RR 


|a z|26ue2-:-m--5i»usxoe | 


im Files\SASHome\SASF oundation\9.3\napsgfi 
Files\sAShone\SASFoundation\9.3\napsgfk 
SASUSER 
- 


‘sbjylu\ Docunents\My SAS FLles\D.3 
jyivitecenentsMy SaS Files\9.3 


- SEsora\sbjyiuAppdata\lacal\ Tonshs Tonporary Files\ 
edt de remp bns Temporary Piles d 


图 2-4 查看 所 有 逻辑 库 信 " 


2.2 SAS 数据 集 


SAS 数据 集 是 一 种 SAS 特定 的 结构 化 数据 文件 ， 这 种 表 状 数据 由 变量 (Variable) 
和 观测 CObservation) 组 成 ， 变 量 和 观测 分 别 对 应 传统 数据 库 中 表 的 列 和 行 。 实 际 上 ， 
变量 和 观测 这 两 个 术语 来 自 统计 分 析 学 科 , 表示 对 某 个 事件 的 属性 或 特征 的 连续 观测 结果 。 
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SAS 数据 集 从 结构 上 看 包括 描述 部 分 和 数据 部 分 。 描 述 部 分 是 数据 集 的 元 数据 ， 主 
要 包括 数据 集 的 属性 信息 ， 包 括 数据 集 名 称 、 文 件 编码 、 创 建 日 期 ， 观 测 数目 〈 行 数 ) 、 
变量 数目 〈 列 数 ) 以 及 每 一 个 变量 的 具体 属性 定义 〈 包 括 名 称 、 类 型 、 长 度 、 标 签 、 输 
入 /输出 格式 ) 等 。 数据 部 分 就 是 每 一 行 记录 本 身 。 要 查看 数据 集 的 元 数据 ( 见 图 2-5) ， 
可 以 使 用 PROC CONTENTS 过 程 步 来 显示 〈 见 程序 2-5) 。 

程序 2-5 ”查看 数据 集 的 元 数据 信息 


Proc contents data=sashelp.class; 
run; 


在 SAS 代码 中 ， 数 据 集 使 用 两 级 名 称 [LIBREF.]DSNAME 进行 引用 ， 如 果 是 临时 库 
Work 中 的 数据 ， 用 户 可 以 省 略 逻 辑 库 引 用 名 LIBREF， 也 就 说 当 未 指定 逻辑 库 名 称 时 ， 
系统 默认 使 用 临时 库 Work 中 的 数据 。 


€ SAS 数据 集中 的 每 一 列 ， 在 SAS 中 称 为 变量 。 变 量 名 称 由 字母 、 下 划 线 和 数字 
组 成 ， 名 称 必 须 以 字母 或 下 划 线 (不 能 以 数字 开始 ) 开始 。 变 量 名称 的 长 度 范 
围 为 1~32 字 节 。SAS 内 部 使 用 大 写 形式 创建 变量 ， 因 此 SAS 代 码 中 对 变量 名 称 不 
区 分 大 小 写 ; 另外 ，SAS 步 中 语句 需要 指定 变量 列表 时 ， 除 了 可 使 用 减 号 指定 
区 间 外 ， 还 可 使 用 冒号 : 作为 通配符 ， 比 如 varx2-x3; X keep x:; 等 。 

€ SAS 变 量 类 型 包括 字符 型 和 数值 型 ， 缺 省 都 是 8 字 节 长 。 字 符 类 型 的 变量 值 可 为 
1~32767 个 字 节 长 度 的 文本 ， 数 值 型 可 为 2~8 任 意 字 节 长 的 整数 或 浮 点 数 。 其 中 
在 IBM 大 型 机 上 运行 的 SAS 支 持 2~8 字 节 长 ， 而 在 Windows/Linux 操 作 系 统 上 运 
行 的 SAS 支 持 3~8 字 节 长 。 


在 此 谈论 的 SAS 变量 类 型 是 传统 意义 上 SAS 数据 集中 的 数据 类 型 ， 即 DATA 步 中 
的 变量 类 型 。 在 本 书后 面 的 章节 中 我 们 将 看 到 PROC DS2 能 支持 更 加 丰富 的 数据 类 型 ， 
但 那些 数据 类 型 只 是 在 运行 时 在 内 存 中 起 作用 ， 一 旦 将 内 存 数据 持久 化 输出 到 SAS 数据 
集 ， 则 只 有 定 长 字符 型 和 数值 型 两 大 类 数据 类 型 。 程 序 员 可 能 觉得 数据 类 型 偏 少 ， 但 在 
统计 科学 中 ， 数 据 所 包含 的 信息 由 定 类 、 定 序 、 定 距 和 定 比 四 种 变量 描述 ， 即 变量 只 包 
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含 类 别 变 量 〈 定 类 、 定 序 ) 和 量化 变量 〈 定 距 、 定 比 ) 两 大 类 ， 因 此 字符 型 和 数值 型 完 
全 可 以 覆盖 所 有 的 数据 类 型 。 相 反 地 ， 传 统 编程 语言 中 的 字 节 型 、 短 整 型 、 长 整 型 以 及 
单 精度 ， 双 精度 浮 点 型 更 多 的 是 面向 计算 机 存储 而 设计 的 数据 类 型 ， 并 不 是 面向 数据 
分 析 关 注 变量 本 身 所 包含 的 信息 量 而 设计 的 数据 类 型 。 


e SAS 变 量 的 输出 格式 用 于 指定 该 变量 ( 列 ) 的 默认 输出 格式 。 这 样 一 来 相同 的 
SAS 内 部 存储 数据 可 以 根据 不 同 的 输出 格式 生成 不 同 的 字符 串 表 达 。SAS 变量 
的 输入 格式 用 于 告诉 SAS 按 照 该 输入 格式 从 外 部 数据 源 读 取 数 据 到 SAS 数据 集 
中 。 后 面 一 节 将 详细 讲解 SAS 的 输入 格式 和 输出 格式 。 


SAS 输 入 /输出 格式 


SAS 输入 /输出 格式 在 表现 形式 上 就 是 一 个 包含 小 数 点 “.” 的 特殊 文本 标记 ， 它 不 
需要 用 引号 括 起 来 。 完 整 的 SAS 格式 定义 包括 可 选 的 格式 前 级 $〈 如 果 是 字符 型 格式 的 
话 )、 格 式 名 称 (FormmatName)、 输 出 宽度 w 以 及 数值 型 变量 特有 的 小 数 点 位 数 d 等 信息 。 
SAS 输入 /输出 格式 完整 语法 形式 如 下 : 


<$> 格 式 名 称 <w> . <d> 


SAS 输入 /输出 格式 是 数据 的 存储 表达 和 SAS 内 部 存储 之 间 的 转换 桥梁 。 根 据 SAS 
数据 类 型 的 不 同 可 以 将 SAS 格式 主要 分 为 字符 型 格式 和 数值 型 格式 两 大 类 ， 其 中 数值 类 
型 格式 可 细 分 为 数值 型 、 货 币 型 、 日 期 /时 间 /日 期 时 间 型 3 个子 类 的 格式 。 格 式 用 于 
从 SAS 外 部 输入 SAS 系统 的 转换 称 为 输入 格式 (INFORMAT) ， 相 反 用 于 输出 SAS 4E 
量 的 称 为 输出 格式 (FORMAT) 。 

字符 型 格式 必须 在 格式 名 前 面 加 美元 符 $ ( 源 自 英文 字符 串 String 的 首 字 母 ) dem, 
w 表示 输出 的 总 宽度 ; 而 数值 型 变量 还 可 指定 小 数 点 后 的 位 数 d。 下 面 列 出 一 些 最 常用 


的 格式 例子 : 
e 字符 型 格式 : Sw. 表示 w 个 字 节 宽度 的 字符 
e 数值 格式 : wd 


Q) COMMAw.d 表示 用 逗号 做 千 位 分 隔 符 ， 总 长 度 为 w， 包 含 d 位 小 数 。 
(2) COMMAXw.d 表示 用 “.” 作 千 位 分 隔 符 ， 喜 号 作 小 数 点 ， 用 于 部 分 欧洲 国 
Z OMAE) 的 数值 表示 ， 功 能 与 COMMAw.d 类 似 。 
e 货币 格式 : 
(1) DOLLARw.d 表示 变量 按 美 元 格式 输出 : 输出 以 美元 符 开头 ， 和 逗号 作为 千 位 
分 隔 符 ， 使 用 标准 小 数 点 格式 。 
(2) EUROw.d 表示 变量 按 欧 元 格式 输出 : 以 欧元 符号 开头 ， 和 逗号 千 位 分 隔 符 ， 
标准 小 数 点 格式 。 
(3) EUROXw.d 与 EUROw.d 格 式 相 同 ,但 以 “.” 作 千 位 分 隔 符 ,逗号 作 小 数 点 符号 。 
运行 程序 2-6 代码 ， 读 者 可 检查 输出 结果 以 了 解 SAS 输出 格式 的 作用 : 
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程序 2-6 sas 字符 型 和 数值 型 输出 格式 
data null ; 
c-"abcdefghijklmn"; *l4bytes; 
put "char-" c; 
put "char-" c $; 
put "char-" c $14.; 


n-1234.567890; 

put "w.d-  " n 12.3; 

put " COMMAw.d-" n COMMA12.3; 
put "COMMAXw.d-" n COMMAX12.3; 


put "DOLLARw.d-" n DOLLAR12.3; 

put " EUROw.d-" n EURO12.3; 

put " EUROXw.d-" n EUROX12.3; 
run; 


系统 输出 如 下 : 


char=abcdefghijklmn 
char=abcdefghijklmn 
char=abcdefghijklmn 
w.d- 1234.568 
COMMAw.d- 1,234.568 
COMMAXw.d- 1.234,568 
DOLLARw.d-  $1,234.568 
EUROw.d-  E1,234.568 
EUROXw.d-  E1.234,568 


e 日 期 格式 : 
(1) DATEw. 比如 DATE7. 显示 英语 国家 的 格式 16JAN17。 
(2) MMDDYYw. 比如 MMDDYY10. 显示 01/01/1960。 
(3) YEAR4. 显示 年 份 信息 ， 如 1960。 


(4) NLDATE. 显示 本 地 语言 格式 的 日 期 ， 此 时 NL 开头 的 日 期 格式 会 根据 不 
同 的 SAS 会 话 Locale 系统 选项 输出 不 同 的 结果 ， 比 如 在 中 文 SAS 上 显示 
1960 Ẹ 01 B 01 日 ， 在 法 文 SAS 环境 中 则 按 法 文 Locale 的 格式 显示 


01 janvier 1960. 
e mi: 
(1) TIMEw. 比如 TIME. 显示 22:16:27. 


(2) NLTIME. 显示 本 地 语言 格式 的 时 间 ， 如 中 文 SAS 上 显示 22 时 16 2795. 


e 日 期 时 间 : 为 前 面 日 期 和 时 间 的 组 合 
(1) DATETIME. 比如 DATETIME. 显示 01JAN60:22:16:27。 


(2) NLDATM. 显示 本 地 语言 格式 的 日 期 时 间 ， 如 1960 年 01 月 01 日 22 时 


16 分 27 秒 。 


程序 2-7 显示 了 SAS 代码 中 日 期 、 时 间 以 及 日 期 时 间 格 式 的 基本 使 用 。 


程序 2-7 日 期 和 时 间 格式 

data null ; 
mydate=today (); 
put mydate DATE.; 
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put mydate MMDDYY.; 
put mydate YEAR.; 


mytime-TIME(); 
put mytime TIME.; 


mydt-datetime(); 
put mydt DATETIME.; 


put mydate NLDATE.; 
put mytime NLTIME.; 
put mydt NLDATM.; 
run; 


系统 输出 : 


22JAN17 
01/22/17 

2017 

17: 18: 31 

22JAN17: 17: 18: 31 
2017 年 01 月 22 日 

17 时 18 分 30 秒 

2017 年 01 月 22 日 17 时 18 分 30 秒 


E SAS 中 有 一 系列 以 NL 字符 开头 的 国家 语言 特定 的 输入 /输出 格式 (如 
NLDATE. ) ， 这 些 格式 在 不 同 的 SAS 会 话 中 由 于 系统 选项 locale 的 设置 不 同 ， 因 此 
输出 不 同 。 比 如 在 zh_CN locale 下 输出 符合 中 国 简体 中 文 格式 的 信息 ， 在 法 文 企 FR 
locale 下 则 会 按 法 文 习惯 的 格式 输出 信息 。 格 式 化 只 是 纯粹 显示 数据 ， 它 并 不 转换 数据 。 
因此 ， 同 样 的 数值 以 法 郎 显 示 时 并 不 会 根据 货币 汇率 进行 转换 显示 《〈 见 程序 2-8) 。 

程序 2-8 国家 语言 特定 的 输入 /输出 格式 (NL Format) 

options locale-zh CN; 

data null ; 

day-date(); 


put day nldate.; 
run; 


options locale-fr FR; 
data null ; 
day-date(); 
put day nldate.; 
run; 


系统 输出 如 下 所 示 : 


2017 年 11 月 08 日 
08 novembre 2017 


SAS 格式 为 我 们 在 同一 SAS 程序 代码 中 输出 符合 不 同 国家 语言 和 风俗 习惯 的 数据 
表示 成 为 可 能 ， 这 是 国际 化 软件 公司 在 将 软件 产品 走向 全 球 化 市 场 时 必须 提供 的 产品 特 
性 。SAS 提供 了 非常 全 面 的 国际 化 格式 支持 。 

SAS 组 织 数据 的 基本 容器 是 SAS 数据 集 ， 更 上 一 级 为 SAS 逻辑 库 。SAS 数据 集 包 
含 描述 数据 的 元 数据 部 分 〈 即 数据 表 的 属性 以 及 列 定义 信息 ) 以 及 真正 包含 数据 的 观测 
行 组 成 。 不 管 数据 是 存在 磁盘 上 ， 还 是 存在 外 部 数据 库 或 其 他 应 用 系统 中 ， 在 SAS 程序 
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员 的 世界 里 都 被 统一 成 逻辑 库 引 用 进行 数据 访问 。 这 样 用 户 就 根本 不 必 关 注 数 据 存 储 的 

细节 ， 而 是 将 更 多 的 精力 放 在 数据 分 析 和 展现 本 身上 。 因 此 ， 不 管 是 Oracle 数据 表 还 是 

SQL Server 数据 表 , 或 是 SAS 数据 集 ， 在 SAS 程序 里 都 是 简单 地 通过 “逻辑 库 . 数据 集 ” 
(如 myoracle.table2 或 mysqlsvrtable3) 两 级 方式 进行 引用 。 


SAS 数据 集中 的 观测 一 般 有 3 种 生成 方式 。 


(D) 通过 DATA 步 内 嵌 数 据 行 ， 或 基于 已 有 的 SAS 数据 集 或 外 部 数据 库 系统 中 的 
表 来 生成 。 

(2) 通过 PROC IMPORT 或 者 其 他 面向 数据 操作 的 PROC 步 ， 如 PROC SQL 来生 成。 

G) 通过 面向 分 析 的 PROC 步 作 为 输出 或 副产品 生成 ， 一 般 是 中 间 临 时 数据 或 最 
终 分 析 结 果 数 据 集 。 


程序 2-9 生成 了 一 个 有 代表 性 的 SAS 数据 集 〈 见 图 2-60 ， 可 帮助 理解 SAS 数据 集 
的 逻辑 结构 。 


程序 2-9 包含 两 种 基本 类 型 的 数据 集 范例 
libname mylib 'C:\temp';/* 创 建 用 户 自 定义 逻辑 库 mylib， 指 向 C:\temp*/ 


/* 生 成 mylib.mydata 数据 集 ， 设 置 数据 集 标签 */ 

data mylib.mydata (label="This is my first data"); 
length columnl $32; /* 定 义 一 个 字符 型 变量 ，32 个 字 节 长 */ 
columnl="The only constant is change"; 
label columnl-"This is Char column"; 


column2-1234.5678; /* 定 义 一 个 数值 型 变量 ， 默 认 8 字 节 长 */ 
format column2 dollar10.2; 
label column2="This is Num column"; 

run; 


proc contents data-mylib.mydata; run; 
proc print data-mylib.mydata; run; 


按 字母 排序 的 变量 和 属性 列表 


[| sx [ses [ies | su 
m column 1 | 字符 32 This is Char column 
| 2 | cotum 2 | sti 8 |DOLLAR10.2| This is Num column 
Obs column 1 column 2 
1 The only constant is change $1234.57 


图 2-6 简单 数据 集 范例 


2.3 DATA 步 


在 SAS 程序 中 DATA 语句 用 于 开始 一 个 数据 步 ， 后 续 为 若干 DATA 步 特定 的 SAS 
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语句 。SAS 数据 步 结 束 于 下 一 个 DATA 步 或 PROC 步 开 始 之 处 ， 或 者 结束 于 后 续 显 式 指 
EHI RUN i fg. DATA 语句 最 常见 的 调用 方式 有 如 下 几 种 。 

Q) DATA 语句 可 不 指定 任何 参数 ， 则 DATA 步 将 自动 在 临时 逻辑 库 Work 中 创建 
一 个 输出 数据 集 DATA#， 其 中 # 为 从 1 开始 不 断 增长 的 唯一 整数 。 因 此 ， 每 次 执行 代码 
都 会 在 Work 中 创建 新 的 数据 集 。 程 序 2-10 SAS 代码 将 在 临时 逻辑 库 Work 中 创建 数据 
集 DAIA1, 包含 1 行 5 列 数据 。 再 次 运行 该 代码 则 将 生成 DATA2, 依 此 类 推 ( 见 图 2-7) 。 

程序 2-10 ”变量 输出 到 默认 数据 集 

data; 


Name-"Leon"; Sex-"M"; Age-30; Weight-83.5; Height-175; 
run; 


O" VIETTABLE: Fork. Datal a loj xi 
Name | Sex Age Weight Height — -| 


1 Leon M 30 835 175 


s z” 


2-7 Work.Datal 内 容 


这 种 方式 一 般 用 在 生成 临时 数据 集 而 且 不 关心 输出 数据 集 的 名 称 时 使 用 ， 由 于 每 次 
执行 都 会 在 Work 中 生成 一 份 新 的 数据 , 它 对 应 在 操作 系统 磁盘 上 一 个 单独 的 文件 存储 ， 
因此 一 般 不 建议 使 用 这 种 方法 。 通 常情 况 下 会 显示 指定 输出 数据 集 的 名 字 会 更 好 一 些 ， 
避免 反复 执行 数据 分 析 任 务 将 磁盘 空间 耗 尽 。 

这 种 临时 数据 集 的 名 称 可 用 SAS 系统 宏 变量 &SYSLAST 跟踪 〈 见 程序 2-11) ， 
该 宏 变量 用 于 跟踪 上 一 次 生成 的 数据 集 名 称 ， 并 在 打印 结束 后 将 它 从 临时 逻辑 库 中 自 
动 删 除 。 

程序 2-11 跟踪 最 近 使 用 的 数据 集 名 称 

data; 

Name-"Leon"; Sex-"M"; Age-30; Weight-83.5; Height-175; 


run; 
proc print;run; 


proc datasets nolist ; 
delete $scan(&syslast,2); 
quit; 


(2) DATA 语句 也 可 指定 特殊 名 称 _NULL_， 表 示 不 输出 任何 目标 数据 集 ， 此 时 数据 
步 通常 用 于 纯粹 的 计算 ， 或 出 于 调试 SAS 代码 的 目的 ， 不 希望 生成 默认 数据 集 时 通常 使 用 
此 方法 。 程 序 2-12 只 在 日 志 中 打印 最 近 使 用 的 那个 数据 集 的 名 称 ， 并 不 生成 任何 数据 集 。 

程序 2-12 不 输出 到 sas 数 据 集 

data null ; 


put "&SYSLAST"; 
run; 


G) DATA 语句 也 可 指定 多 个 输出 数据 集 ， 从 而 实现 在 一 个 DATA 步 里 输出 多 个 
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数据 集 。 程 序 2-13 可 生成 两 份 内 容 完全 相同 的 数据 集 datal 和 data2。 
程序 2-13 ”输出 到 多 个 数据 集中 


data datal data2; 
Name="Leon"; Sex="M"; Age=30; Weight=83.5; Height=175; 
run; 


如 果 我 们 希望 把 SASHELP.CLASS 中 所 有 数据 行 分 成 13 岁 以 下 的 一 组 和 大 于 13 岁 
的 一 组 , 形成 两 个 数据 集 classA 和 clasB, 则 可 使 用 下 面 的 代码 简洁 地 实现 ( 见 程序 2-14)。 
程序 2-14 按 年 龄 将 数据 集 SASHELP .CLASS 分 为 两 个 数据 集 
data classA classB; 
set sashelp.class; 
if age«-13 then output classA; /* 输 出 到 数据 集 A*/ 
else output classB; /* 输 出 到 数据 集 B*/ 
run; 
如 果 想 把 数据 集 纵 向 上 进行 分 割 ， 如 在 classa 中 保留 name, age 列 ， 而 在 classB 中 
保留 name weight, height 列 ， 则 可 以 使 用 如 下 灵活 方式 实现 〈 见 程序 2-15) o 
程序 2-15 ”将 数据 纵向 分 裂 为 两 个 数据 集 
data classA(keep=name age) classB (keep=name weight height); 


set sashelp.class; 
run; 


在 数据 分 析 实 践 中 ，SAS 数据 集中 的 观测 有 各 种 各 样 的 生成 方式 ， 主 要 包括 下 面 几 种 。 


2.3.1 内藤 数据 行 或 外 部 数据 文件 


1. 利用 内 同 数 据 行 创建 SAS 数 据 集 


一 般 情况 下 ， 如 果 我 们 要 生成 的 分 析 数 据 比 较 小 ， 且 不 希望 有 独立 的 外 部 数据 文件 ， 
可 以 直接 将 数据 本 身 嵌 在 SAS 代码 中 ， 内 嵌 数 据 行 又 有 如 下 几 种 不 同方 式 。 

(1) 最 常见 的 情况 是 我 们 有 一 系列 的 数据 行 ， 数 据 项 之 间 用 空格 分 隔 。 这 种 情况 
我 们 可 以 使 用 DATALINES 语句 配合 INPUT 语句 直接 生成 。DATALINES 语句 表示 后 面 
的 行 是 数据 行 。 由 于 数据 行 并 非 SAS 语句 ， 因 此 它 不 需要 分 号 ， 但 该 文本 是 格式 敏感 的 
数据 。 另 外 ， 除 了 DATALINES 语句 外 ， 我 们 也 可 使 用 DATALINES 语句 的 别名 LINES 
或 CARDS 语句 ， 它 们 三 者 等 价 。 程 序 2-16 代码 生成 2 个 字符 串 变量 和 3 个 数值 变量 的 
3 行 数 据 。 

程序 2-16 ”利用 内 区 数据 行 创建 数据 集 

libname mylib "C:\temp"; 

data mylib.myclass; 
input Name $ Sex $ Age Height Weight; /*$ 表示 字符 型 变量 */ 
datalines; 

Alfred M 14 112.5 69 

Alice F 13 84 56.5 

Barbara F 13 98 65.3 

ied print;run; 
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系统 会 生成 如 下 数据 集 ( 见 图 2-8), 存放 在 C:\temp 目录 中 。 与 利用 临时 库 Work Ah [s], 
该 数据 集 在 你 SAS 会 话 结束 后 依然 存在 ， 存 放 在 C:\temp\class.sas7bdat 文件 中 。 


Obs Name Sex Age Height Weight 
1 Alfred M 14 1125 69.0 


2 Alice F 13 84.0 56.5 
3 Barbara F 13 98.0 65.3 
Mr nmm e c MN s D 


图 2-8 ”由 数据 生成 的 MYLIB.CLASS 数据 集 内 容 


磁盘 上 的 数据 文件 名 称 依 赖 于 操作 系统 的 文件 系统 ， 如 Windows 平台 的 FAT/FAT32 
和 NTFS 文件 系统 ， 不 区 分 大 小 写 。 而 Linux/Unix 平台 则 区 分 大 小 写 ，SAS 则 一 律 使 用 
小 写字 母 生成 数据 集 文件 名 。 如 果 我 们 要 读 取 Unix/Linux 平台 上 包含 大 写字 母 的 文件 名 ， 
需要 在 SAS 会 话 中 启用 系统 选项 VALIDMEMNAME-EXTEND 并 且 数 据 集 的 名 称 必须 
与 磁盘 上 的 文件 名 大 小 写 完全 匹配 才能 正常 读 取 。 

(2) 如 果 数 据 行 包 含 特定 的 分 隔 符 ， 我 们 可 以 利用 INFILE 语句 来 指向 系统 特殊 的 
文件 引用 DATALINES ， 并 且 使 用 语句 参数 DELIMITER='< 分 隔 符 >' 来 指定 分 隔 符 。 
指定 分 隔 符 时 也 可 以 使 用 十 六 进 制 方式 ， 如 DELIMITER-'2C'X: 它 与 下 面 的 代码 使 用 
逗号 分 隔 符 等 价 〈 见 程序 2-17) ， 代 码 输出 结果 与 程序 2-16 相同 。 

程序 2-17 ”指定 分 割 符 
data myclass; 
infile datalines delimiter-','; 
input Name $ Sex $ Age Height Weight; 
datalines; 
Alfred,M,14,112.5,69 
Alice,F,13,84,56.5 
Barbara,F,13,98,65.3 
run; 

G) 如 果 数 据 行 本 身 包 含 SAS 语句 的 结束 标志 符 分 号 “:” 的 话 ， 则 我 们 必须 使 用 
DATALINESA 语句 来 标记 后 续 数据 行 ， 该 语句 表示 后 续 数 据 行 是 用 4 个 连续 的 分 号 来 标 
记 数 据 行 结束 的 。DATALINES4 也 可 以 使 用 该 语句 的 别名 为 LINES4 或 CARDS4 表示 。 
程序 2-18 中 字符 型 变量 NAME 的 值 包含 分 号 , 则 我 们 必须 以 DATALINES4 来 输入 数据 。 

程序 2-18 ”数据 包含 分 号 

data myclass; 
input Name $ Sex $ Age Height Weight; 
datalines4; 

Alfred; M 14 112.5 69 


Alice; F 13 84 56.5 
Barbara; F 13 98 65.3 


数据 包含 引号 并 且 引 号 中 的 数据 包含 字段 分 隔 符 本 身 时 ， 我 们 需要 在 INFILE i& 
名 上 启用 分 隔 符 敏感 数据 选项 DSD (DELIMITOR-SENSITIVE DATA, DSD) 。 此 时 
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如 果 数 据 行 中 甚至 还 包含 SAS 语句 结束 符 分 号 ， 则 我 们 同时 需要 使 用 DATALINES4 
而 非 DATALINES 语句 进行 标记 。 下 面 的 代码 详细 展示 了 此 时 如 何 正确 读 取 数据 CU 
程序 2-19) 。 


程序 2-19 ”数据 包含 分 隔 符 和 引号 
data myclass; 
infile datalines4 dsd; /* DSD 使 用 逗号 分 隔 ， 且 引号 文本 中 包括 逗号 */ 
input Name: $9. Sex $ Age Height Weight Address: $32. Description $24.; 
datalines4; 
Alfred,M,14,112.5,69, "Alfred's home Beijing, China", Alfred's 
description; 
Alice,F,13,84,56.5, "Alice's home, Beijing, China", Alice's 
description; 
Barbara,F,13,98,65.3, "Babara's adress, Beijing, China", Barbara's 
description; 


读 取 后 的 数据 中 可 包括 空格 、 喜 号 与 分 号 〈 见 图 2-9) . 


[Os Sane [ser free neien As Te | 
[1 mei [M | 14| 1125| 690 | Ae home Beijing, China [Aids description: | 


[2 [nee [r [15 |. 840 | 565 [ Alices home Bejing, China — Ais descripto: 
[3 [Batu F 15 [ 980 653 [Barres adress, Beijing, China [Barbara's dseipin: 


图 2-9 读 取 数 据 中 包含 空格 和 分 号 


(4) 如 果 数 据 行 本 身 变 长 ， 也 就 是 说 数据 行 参差 不 齐 ， 其 中 字符 型 变量 又 包含 空 
格 字符 。 此 时 我 们 需要 使 用 SAS 提供 的 列 指针 来 明确 指定 每 一 个 数据 行 中 变量 读 取 的 起 
止 位 置 ， 从 而 正确 地 截取 变 长 的 字符 串 。 如 下 代码 对 字符 型 NAME 变量 明确 指示 从 数 
据 行 前 15 个 字 节 中 读 取 值 ， 而 对 字符 型 SEX 变量 则 没有 指定 列 指 针 ， 默 认 读 取 前 一 
个 变量 之 后 到 下 一 个 变量 之 前 之 间 的 字符 。 这 种 方式 一 般 用 于 表单 化 的 数据 读 取 “《〈 见 
程序 2-20) ， 生 成 的 结果 如 图 2-10 所 示 。 

程序 2-20 ” 变 长 数据 一 按 位 置 读 取 

data myclass; 


input Name $1-15sex $ Age Height Weight; 
datalines; 


Alfred Liu M 14 112.5 69 
Alice Wang F 13 84 56.5 
Barbara Deng  F 13 98 65.3 

Obs Name Sex Age Height Weight 

1 Alfred Liu M 14 1125 69.0 

2 Alice Wang F 13 84.0 56.5 

3 Barbara Deng F 13 98.0 65.3 


Agr e T E 


图 2-10 读 取 变 长 数据 


O) 如 果 在 一 个 数据 行 包 括 多 个 观测 数据 呈 锯 齿 状 。 我 们 该 如 何 读 取 呢 ? SAS 
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在 INPUT 语句 上 设计 了 一 个 特殊 选项 @@， 用 于 告诉 SAS 从 数据 行 完整 读 取 一 个 观测 
后 不 要 马上 读 取 下 一 个 数据 行 , 而 是 继续 从 当前 的 数据 缓冲 区 中 继续 读 取 数 据 填 充 观测 。 
这 种 灵活 设计 为 读 取 各 种 复杂 格式 的 数据 ， 节 省 SAS 代码 内 嵌 数 据 行 数 非常 有 用 。 比 如 
下 面 的 代码 依然 可 以 读 取 数据 行 中 的 锯齿 状 数据 ( 见 程 序 2-21)〉。 


程序 2-21 忽略 原始 数据 格式 从 缓冲 区 连续 读 取 

data myclass; 
input Name $ Sex $ Age Height Weight 88; 
datalines; 

Alfred M 14 112.5 69 

Alice F 13 84 56.5 Barbara F 13 98 65.3 


C6) 如 果 数 据 集 的 一 个 观测 来 自 多 行文 本 ， 此 时 需要 联合 游标 控制 符 # 和 @ 来 读 
取 数 据 ， 它 们 分 别 表示 对 应 数据 行 和 列 的 偏 移 位 置 。 此 时 ，input 语句 有 若干 参数 可 指定 
用 来 接收 执行 过 程 中 所 读 取 的 文件 指针 信息 。 下 面 的 代码 中 数据 行 格式 比较 混乱 ， 我 们 
需要 一 次 读 取 3 行文 本 才能 获得 一 个 观测 的 完整 数据 〈 见 程序 22) 。 


程序 2-22 ”利用 游标 控制 符 读 取 跨 行 数据 
data mydata; 
infile datalines line=LN col=COL; 
input name $ 1-10 
#2 03 Sex $ /* 从 第 2 行 第 三 列 读 取 一 个 字符 捉 变 量 Sex */ 
#3 Age Weight Height; /* 从 第 3 行 读 取 三 个 数值 变量 */ 
datalines; 
Alfred 
M 
14 112.5 69 
Alice 
F 
13 84 56.5 
Barbara 


F 
13 98 65.3 


2. 基 于 外 部 数据 文件 创建 SAS 数 据 集 


大 部 分 情况 下 ， 数 据 来 自 磁盘 上 的 某 个 外 部 文件 ， 而 且 通 常 是 一 系列 的 文件 。 比 如 
在 CATEMP 目录 中 有 如 下 文本 文件 MYCLASS.TXT ( 见 图 2-11) , 我 们 怎么 用 DATA 步 
来 读 取 呢 ? 


图 2-11 待 读 取 的 文本 文件 


此 时 我 们 不 再 需要 数据 行 语句 DATALINES， 而 是 在 DATA 步 中 利用 INFILE 语句 
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指定 该 外 部 文件 ， 相 当 于 我 们 将 DATALINES 语句 后 的 数据 行 移 到 了 外 部 文件 ， 然 后 再 
用 INPUT 语句 读 取 。 假 如 MYCLASS.TXT 是 包含 数据 的 文本 文件 ， 可 用 如 下 4 行 语句 
进行 读 取 数 据 生 成 了 数据 集 C\temp\myclass.sas7bdat ( 见 程 序 2-23) , 结果 如 图 2-12 所 示 。 


程序 2-23 ， 读 取 外 部 文件 中 的 数据 
libname mylib "C:Vtemp"; 
data mylib.myclass; 
infile 'C:NtempWnyclass.txt'; 
input name $ sex $ age height weight; 
run; 


Obs Name Sex Age Height Weight 


1 Alfred M 14 1125 69.0 
2 Alice F 13 84.0 56.5 
3 Barbara F 13 98.0 653 


o nu c E MN cs 


图 2-12 ”从 外 部 文件 读 取 的 数据 集 


还 有 一 种 更 加 标准 的 做 法 是 先 用 filename 语句 定义 一 个 “文件 引用 ”myfile， 然 后 
再 在 infile 语句 中 使 用 该 文件 引用 《〈 见 程序 2-24) o 
程序 2-24 ”使 用 fiLename 定义 文件 引用 
filename myfile 'C:\temp\myclass.txt'; 
data myclass; 
infile myfile; 
input name $ sex $ age height weight; 
run; 


很 多 时 候 外 部 数据 文件 中 可 能 包含 说 明文 字 和 注释 ， 以 及 数据 的 表 头 信息 。 这 种 情 
况 下 我 们 真正 读 取 数据 时 需要 忽略 掉 这 些 说 明 性 的 内 容 ， 此 时 可 在 infile 语句 上 可 指定 
读 取 观 测 的 起 始 行 frstobs=， 同 时 也 可 以 用 obs= 指定 需要 读 取 的 观测 行 数 或 者 限定 读 取 
的 观测 数 ， 此 时 结果 数据 集 的 总 行 数 为 obs-firstobs+1 行 。 比 如 下 面 的 代码 读 取 第 2 行 开 
始 的 10 行 数据 。 


infile myfile delimiter-',' firstobs-2 obs-11; 


如 前 面 章节 指出 的 ， 如 果 外 部 数据 文件 的 编码 与 当前 SAS 会 话 的 编码 不 同 ， 就 可 能 
导致 读 取 的 数据 出 现 乱 码 。 此 时 需要 我 们 在 SAS 代码 中 明确 指定 数据 源 文件 的 编码 格式 
来 正确 读 取 数 据 ，SAS 会 根据 指定 的 输入 编码 自动 进行 数据 转 码 。 比 如 我 们 要 导入 的 文 
本 文件 为 UTF-8 编码 格式 的 数据 ， 则 需要 指定 如 下 选项 。 


infile myfile encoding-"utf-8"; 


3. 验证 生成 的 SAS 数 据 集 


数据 导入 结束 后 一 定 要 仔细 验证 结果 数据 集 ， 除 了 前 面 提 到 的 PROC CONTENTS 
和 PROC PRINT 外 ，SAS 也 提供 专门 为 了 比较 数据 集 的 过 程 步 。 比 如 为 了 验证 我 们 自 
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己 创建 的 数据 集 MYLIB.MYCLASS 和 系统 SASHELP.CLASS 数据 集 的 差异 ， 可 以 调用 
PROC COMPARE 来 比较 两 个 数据 集 的 异同 〈 见 程序 2-25) ， 其 中 base= 选项 用 来 指定 
基准 数据 集 ，compare= 选项 指定 需要 比较 的 数据 集 。 


程序 2-25 ”比较 两 个 数据 集 异 同 


proc compare base-sashelp.class compare-mylib.myclass; 
run; 


系统 显示 两 个 数据 集 基 本 相同 ， 除 了 SASHELP.CLASS 有 数据 集 LABEL 信息 ， 
SEX 列 宽度 为 8 字 节 外 ， 两 个 数据 集 完 全 一 样 〈 见 图 2-13) 。 


The COMPARE Procedure 
Comparison of SASHELP.CLASS with MYLIB.MYCLASS 
(Method-EXACT) 
Data Set Summary 
Dataset Created Modified NVar NObs Label 
SASHELP.CLASS 24MAY11:14:40:19 24MAY11:14:40:19 5 19 Student Data 
MYLIB.MYCLASS  17JAN17:11:51:01  17JAN17:11:51:01 5 19 


Variables Summary 


Number of Variables in Common: 5. 
Number of Variables with Differing Attributes: 1. 


Listing of Common Variables with Differing Attributes 


Variable Dataset Type Length 
Sex SASHELP.CLASS Char 1 
MYLIB.UYCLASS Char e 


图 2-13 SAS 数据 集 比较 


2.3.2 通过 已 有 SAS 数据 集 生成 


很 多 时 候 我 们 都 是 操作 已 有 的 SAS 数据 集 , 此 时 可 通过 特定 变换 来 生成 目标 数据 集 。 
比如 对 别人 已 经 提供 的 SAS 数据 集 进 行 增删 改 查 以 及 排序 、 合 并 、 分 离 、 转 置 等 操作 来 
生成 新 的 数据 集 。 这 种 非 分 析 的 数据 处 理 在 数据 工作 中 也 是 重要 的 组 成 部 分 。 

(1) 追加 数据 行 : 比如 在 SASHELPCLASS 数据 集 尾部 追加 一 行 数据 生成 CLASS2 


数据 集 ， 可 使 用 SET 语句 进行 〈 见 程序 2-26) ， 输 出 结果 如 图 2-14 所 示 。 


程序 2-26 追加 数据 行 
data onerow; 
name-"leon"; sex-"m"; age-30; weight-83.5; height-175; 
run; 
data class2; 
set sashelp.class onerow; 
run; 
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Obs Name Sex Age Height Weight 
1 Alfred M 14 690 1125 
F 13 565 84.0 


[ tSTWüiam M - Mais| e65| 1120] 
20|Leon M | 30 1750 835| 


图 2-14 尾部 追加 数据 行 


也 可 在 数据 头 部 增加 数据 行 ,只 需 改 变 SET 语句 中 的 数据 集 顺序 即 可 ( 见 程序 2-27)， 
结果 如 图 2-15 所 示 。 


程序 2-27 头 部 插入 数据 行 
data myclass; 

set OneRow sashelp.class; 
run; 


Obs| Name Sex Age Weight Height | 
1|leo M | 30| 835| 1750 
2Af M | 14 125 690 

[78] Alic F 13 840 565 

F 


4 | Barb 13, 98.0) 653| 


———À 


图 2-15 头 部 插入 数据 行 


细心 的 读者 可 能 会 发 现 ， 输 出 的 数据 集中 NAME 有 截断 错误 ， 如 ALFRED AE 
成 了 Alft， 原 因 是 SET 语句 执行 时 所 用 的 PDV 初始 结构 来 自我 们 创建 的 临时 数据 集 
ONEROW， 而 该 数据 集中 变量 NAME 的 默认 长 度 定义 来 自 初 始 值 LEON, 其 长 度 为 4， 
不 足以 存储 大 于 4 字 节 的 值 ， 我 们 可 以 通过 显示 指定 onerow 数据 集 的 宽度 定义 来 修正 
这 个 问题 〈 见 程序 2-28) o 


程序 2-28 修正 默认 宽度 问题 
data onerow; 

length name $8; 

name-"leon"; sex-"m"; age-30; weight-83.5; height-175; 
run; 


如 果 需 要 在 特定 行 处 插入 数据 ， 也 可 以 使 用 内 部 行 计 数 器 _N_ 作 控制 实现 。 下 面 的 
代码 在 第 2 行 插入 一 个 观测 〈 见 程序 2-29) ， 结 果 如 图 2-16 所 示 。 


程序 2-29 ”指定 位 置 处 插入 数据 行 
data myclass; 
set sashelp.class; 
if n = 1 then do; /* 在 第 1 行 后 面 插入 数据 */ 
output; 
name-"leon"; sex-"m"; age-30; weight-83.5; height-175; 
end; 
output; 
run; 
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options obs-3; /* 列 出 前 3 行 */ 
Proc print data=myclass; 
run; 


Obs | Name | Sex | Age Height | Weight 
1 Afred M | 14 690 1125 


2|Leon M 30, 175.0 83.5 
3|Alice F 13 56.5 84.0 
EE. pum 


RUE cdm 


2-16. 指定 位 置 插入 数据 行 


(2) 删除 数据 行 : 可 以 将 原始 数据 集中 的 某 些 行 数据 进行 剔除 ， 形 成 新 的 数据 集 。 
下 面 的 代码 剔除 了 SASHELP.CLASS 数据 集 19 行 数 据 中 的 第 3 行 数 据 ， 生 成 了 18 行 的 
数据 集 myclass〈 见 程序 2-30) o 


程序 2-30 ”删除 第 3 行 数据 
data myclass; 
set sashelp.class; 
if N = 3 then return; 
else output; 
run; 
proc summary data=myclass print; run; 


当然 你 也 可 以 删除 满足 指定 条 件 的 数据 行 ， 实 际 用 户 可 以 构造 出 任何 复杂 的 删除 逻 
辑 ( 见 程序 2-31) ， 结 果 如 图 2-17 所 示 。 
程序 2-31 删除 性 别 为 M 的 数据 


data myclass; 
set sashelp.class; 


if Sex = 'M' then return; 
else output; 
run; 
proc print data-myclass; 
run; 


Obs Name | Sex Age Height Weight 


1|Alie F 13 565| 840 
2 Barbara F 13 653| 980 
| Bata PM d s 

"WTLouse [E 71 42] 7963] 7771] 


9 May |F 15| 665 1120 
图 2-17 剔除 Sex-M 数据 行 


G) 修改 数据 行 : 满足 特定 条 件 时 修改 变量 的 值 , 如 把 第 3 行 的 Name 改 为 “Baby” 
〈 见 程序 2-32) ， 结 果 如 图 2-18 所 示 。 


第 2 章 ”数据 集 与 DATA 步 [IE 


程序 2-32 ”修改 特定 数据 行 
Data myclass; 
set sashelp.class; 
if N = 3 then name-"Baby"; 
run; 
options obs-3; 
proc print ; run; 


Obs Name | Sex Age Height Weight 
1 Alfred M 14 690, 1125 
2 Alice F 13 56.5 84.0 


L AlB E | 653) 980) 


图 2-18 修改 第 3 行 数据 


(4) 查询 特定 数据 行 : 程序 2-33 仅 输出 满足 特定 条 件 的 1 行 数据 。 


程序 2-33 ”查询 特定 数据 行 
data myclass; 
set sashelp.class; 
where name-"Alfred"; 
run; 


proc print data-myclass;run; 


2.8.8 通过 PROC IMPORT 或 PROC SQL 生成 


SAS 提供 PROC IMPORT 和 PROC EXPORT 来 将 数据 导入 和 导出 SAS 运行 环境 ， 
如 最 常用 的 数据 文件 格式 为 逗号 分 隔 的 CSV 和 微软 的 电子 表格 EXCEL 文件 ， 我 们 可 以 
使 用 如 下 代码 完成 数据 的 导入 和 导出 《〈 见 程序 2-34) 。 
程序 2-34 PROC IMPORT 导入 逗号 分 隔 文本 文件 
proc import datafile-'C:VtempVclass.csv' dbms=csV out-class replace; 
getnames-YES; 


run; 
proc print data-class; run; 


导入 EXCEL 格式 的 文件 ， 需 要 指定 dbms 为 xlsx 或 xls， 分 别 对 应 不 同 版 本 的 
Excel 电子 表格 数据 ( 见 程序 2-35) 。 

程序 2-35 PROC IMPORT 导入 Excel 电子 表格 文件 

proc import datafile='C:\temp\class.xlsx' dbms-xlsx out-class replace; 


getnames-YES; 
run; 


上 面 例子 中 需要 的 数据 文件 CATEMPCLASS.CSV 和 CLASS.XLSX 可 通过 PROC 
EXPORT 从 SAS 内 置 的 数据 集 SASHELPCLASS 生成 ， 代 码 如 下 ( 见 程序 2-36) 。 
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程序 2-36 PROC EXPORT 导出 SAS 数据 集 为 外 部 文件 
proc export data-sashelp.class outfile='C:\temp\class.csv' dbms-csv replace; 
run; 


proc export data-sashelp.class outfile-'C:NVtempNclass.xlsx' dbms-xlsx replace; 
run; 


需要 注意 的 一 点 是 ， 很 多 人 根据 SAS 帮助 文档 导入 EXCEL 文件 时 往往 使 用 
DBMS=EXCEL 进行 导入 ， 结 果 发 现 数据 导入 失败 并 且 系 统 会 报告 如 下 错误 : 

ERROR:Connect: ”没有 注册 类 

ERROR:Error in the LIBNAME statement. 

根本 原因 是 DBMS-XLSX 和 DBMS-EXCEL 在 SAS 里 访问 机 制 是 不 同 的 ， 后 者 需 
要 单独 安装 微软 的 ACE 引擎 才能 工作 ， 而 默认 情况 下 并 没有 安装 它 ， 这 是 一 个 令 很 多 
程序 员 感 到 困惑 以 为 默认 情况 下 SAS 连 EXCEL 文件 都 不 能 导入 的 技术 陷阱 ， 其 实 是 参 
数 错误 。 

PROC SQL 是 SAS 语言 中 非常 强大 的 过 程 步 ， 它 让 用 户 可 以 在 SAS 语言 中 使 用 
SQL 语言 对 数据 进行 增删 改 查 操作 ， 广 泛 用 于 关系 数据 库 管 理 系统 的 数据 表 和 视图 
的 增删 改 查 。 其 主要 功能 包括 : 创建 数据 表 和 数据 视图 ， 对 数据 列 作 索引 ; 查询 存 
储 在 数据 表 和 数据 视图 中 的 数据 ;增删 改 数据 行 或 列 本 身 ， 甚 至 将 某 关 系 型 数据 库 
特有 的 SQL 语句 发 送 到 数据 库 管理 系统 中 进行 数据 查询 。 另 外 ，SAS 也 支持 将 SQL 
查询 结果 置 于 SAS 宏 变 量 中 ， 从 而 实现 数据 在 数据 库 空 间 和 SAS 程序 空间 的 传递 功 
能 ， 这 一 点 非常 有 用 。 下 面 若干 的 例子 来 说 明 PROC SQL 的 用 途 ， 如 创建 /查询 数 
据 表 。 

(D 基于 已 有 的 数据 集 创 建新 的 数据 集 ， 原 来 的 数据 集 既 可 以 是 SAS 数据 集 ， 也 
可 以 是 数据 库 里 面 的 表 ( 见 程序 2-37) 。SAS 逻辑 库 对 SAS 程序 员 隐 藏 了 数据 库 访 问 
的 细节 ， 因 此 非常 方便 快捷 。 
程序 2-37 ”基于 现 有 数据 集 创建 新 的 数据 集 
proc sql; 
create table myclass as 
select Name, Sex, Age, Height, Weight format-best. 


from sashelp.class; 
proc print data-mylib.myclass; run; 


(2) 使 用 标准 的 SQL 语言 创建 数据 集 ( 见 程序 2-38) ， 如 果 目 标 逻 辑 库 mylib 指 
向 的 是 某 个 外 部 数据 库 管 理 系统 ， 则 SAS 会 自动 在 该 数据 库 中 创建 对 应 的 数据 表 。SAS 
这 一 强大 的 数据 库 隔离 功能 使 数据 分 析 人 员 不 用 关心 后 台数 据 库 到 底 是 怎么 存储 的 ， 不 
管 是 Oracle、DB2 还 是 SQLServer， 在 SAS 看 来 都 是 一 样 的 。 
程序 2-38 用 SQL 语言 创建 数据 集 


libname mylib 'C:\temp'; 


proc sql; 
create table mylib.myclass( Name char(8), Sex char(1), Age num, 
Height num,Weight num informat-best. format-best.); 
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insert into mylib.myclass 
values ('Leon', 'M',31,175,80) 
values('Jim', 'M',30,173,75); 


title 'Table mylib.myclass'; 
select * from mylib.myclass; 
quit; 
proc printto; run; 


G) PROC SQL 语言 配合 宏 变量 在 SAS 中 可 以 实现 数据 在 不 同 过程 步 之 间 的 传递 。 
比如 下 面 的 代码 〈 见 程序 2-39) 筛选 sashelp.class 中 体重 大 于 平均 值 的 那些 人 ， 首 先 要 
找到 平均 体重 。 


程序 2-39 ”利用 宏 变 量 在 过 程 步 之 间 传 递 数据 
proc sql; /* 和 寻找 平均 体重 */ 

select mean (weight) into: MEAN WEIGHT from sashelp.class; 
run;quit; 


proc print data-sashelp.class( where-(weight»&mean weight) ); 
/* 只 打印 大 于 平均 体重 的 学 生 */ 


run; 


如 果 要 将 大 于 平均 体重 的 学 生 输 出 到 另 一 个 数据 集 ， 我 们 只 需要 用 多 行 SQL 语句 或 
配合 data 步 生成 即 可 ， 代 码 如 下 《〈 见 程序 2-40) o 


程序 2-40 在 PROC SQL 内 部 使 用 宏 变量 传递 数值 
proc sql; /* 寻 找平 均 体重 */ 
select mean (weight) into :MEAN WEIGHT from sashelp.class; 


create table myclass as/* 生 成 体重 大 于 平均 值 的 子 集 */ 
select * from sashelp.class where weight»&MEAN WEIGHT; 
run;quit; 


或 者 如 程序 2-41: 


程序 2-41 ”利用 宏 变量 在 PROC soL 和 DATA 步 之 间 传递 数据 
proc sql; /* 寻 找平 均 体重 */ 

select mean(weight) into :MEAN WEIGHT from sashelp.class; 
run;quit; 


data myclass; 

set sashelp.class; 

if weight»&MEAN WEIGHT then output; /* 生 成 体重 大 于 平均 值 的 子 集 */ 
run; 


实际 上 ， 除 了 前 面 的 几 种 数据 生成 方式 以 外 ，SAS 还 可 以 根据 数学 函数 凭空 生成 分 
析 数 据 。SAS 作为 “ 诗 一 般 的 计算 机 语言 ”提供 了 极其 灵活 的 机 制 ， 如 下 面 的 代码 CU 
程序 2-42) 可 以 生成 sin(x) 和 cos(x) 函数 的 坐标 数据 ， 再 调用 SAS 的 图 形 过 程 步 绘制 函 
数 曲 线 〈 见 图 2-19) 。 
程序 2-42 ”使 用 数学 函数 生成 分 析 数据 
data mydata; 
do x-0 to 2 * constant("PI") by 0.1; 


sinx-sin(x); 
cosx-cos (x); 
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title "Sin(x) and Cos(x)"; 

proc sgplot data-mydata; 
Series x-x y-sinx; 
series x-x y-cosx; 

run; 


sin (x) andcos (x) 


Obs x sinx cosx 
1|0.0 0.00000 | 1.00000 | o5 


62 | 6.1 -0.18216 0.98327 


63 | 6.2 -0.08309 0.99654 | ,10 


2 4 6 
图 2-19 由 函数 生成 数据 绘图 


2.4 DATA 步 的 运行 机 制 


前 一 节 的 例子 让 我 们 看 到 SAS 在 处 理 数据 时 极其 方便 快捷 ， 但 这 依然 不 够 ， 我 们 还 
需要 深入 探索 SAS 的 DATA 步 的 工作 原理 ， 也 就 是 需要 深刻 理解 SAS DATA 步 的 运行 
机 制 ， 这 是 SAS 数据 步 编程 的 核心 内 容 之 一 ， 也 是 精通 SAS 编程 的 分 析 人 员 和 一 般 水 
平分 析 人 员 的 重要 差别 ， 理 解 DATA 步 的 编译 运行 机 制 与 下 文 SAS 特有 的 一 个 核心 概念 
PDV 有 关 ， 可 以 说 “平生 不 识 PDV， 十 年 SAS 亦 枉然 ”! 

首先 需要 指出 的 是 ，SAS 语言 是 按 步 进行 编译 运行 的 ，SAS 程序 与 大 多 数 编译 型 计 
算 机 语言 程序 一 样 ， 总 体 上 要 经 过 编译 和 运行 两 个 阶段 。 简 要 流程 如 图 2-20 所 示 。 

编译 程序 运行 阶段 
;| 1 编译 SAS 语 句 开始 DATA 步 ， 设 置 循 环 计数 N_ 
1 | “语法 扫描 ， 标 识 变量 1. 以 缺失 值 初始 化 变量 (PDV) 


| | 类 型 长度 penis DO 编译 执行 
= | 2. 创 建 输入 缓冲 区 IB AA AREN. 是 > 下 一 DATA 
( 仅 限 RAW DATA) 3. 执 行 其 他 可 执行 语句 或 PROC 


zz 


4 输出 观测 到 SAS 数 据 集 A 
返回 DATA 步 开始 处 继续 执行 


3. 创 建 程序 数据 向 量 PDV…… 
4. 创 建 描述 符 信息 DI 
数据 集 属性 和 变量 属性 


2-20 ”数据 步 的 编译 运行 
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2.4.1 编译 阶段 


编译 阶段 SAS 主要 做 两 件 事 。 

(1) 扫描 DATA 步 内 的 每 一 行 语句 ， 执 行 语 法 检查 和 变量 标识 工作 。 编 译 器 扫 
描 代 码 片 段 ， 检 查 是 否 存在 语法 错误 。 常 见 的 语法 错误 包括 关键 字 缺 失 或 拼写 错误 、 
无 效 变量 名 称 、 缺 失 或 无 效 的 标点 符号 、 无 效 的 参数 或 选项 等 。 编 译 器 也 会 标识 每 
一 个 变量 的 名 称 、 类 型 和 长 度 等 信息 ， 并 判断 是 否 需 要 为 后 续 变量 引用 作 必 要 的 类 
型 转换 。 

Q) 为 程序 执行 创建 必要 的 内 部 数据 结构 ， 包 括 输入 缓冲 区 (Input Buffer, IB) ~ 
程序 数据 向 量 (Program Data Vector, PDV) 和 输出 数据 集 描述 信息 (Descriptor 
Information, DI) , 其 中 输入 缓冲 区 IB. 只 在 从 外 部 原始 数据 文件 中 读 取 数 据 时 才 会 创建 ， 
从 SAS 数据 集中 读 取 数 据 时 并 不 需要 建立 输入 缓冲 区 。 

@ 输 入 缓冲 区 : 当 DATA 步 内 执行 INPUT 语句 是 从 原始 数据 文件 (如 外 部 文件 ) 
中 读 取 数据 记录 时 ，SAS 会 在 内 存 中 分 配 一 块 逻辑 区 域 作为 缓冲 区 ， 作 为 将 数据 放 入 
PDV 之 前 的 临时 缓冲 区 存在 。 如 果 是 使 用 SET 语句 来 读 取 SAS 数据 集 时 ，SAS 则 将 数 
据 直 接 复制 到 PDV 中 ， 而 不 需要 所 谓 的 输入 缓冲 区 IB。 

@ 程 序数 据 向 量 PDV: 当 DATA 步 每 读 入 一 行 数 据 时 ， 都 需要 在 内 存 中 分 配 一 个 
逻辑 区 域 ， 用 于 存放 数据 集 的 变量 和 计算 列 信息 。 其 数据 来 自 于 输入 缓冲 区 IB 或 SAS 
执行 语句 ，PDYV 中 还 包含 若干 用 于 处 理 阶 段 的 临时 系统 变量 ， 它 们 不 会 被 写 入 目标 数 
据 集 。 

e 行 计数 器 N_: 用 来 对 DATA 步 的 每 次 执行 进行 循环 计数 ， 从 1 开始 

e 错误 标志 ERROR : 用 来 标记 执行 过 程 是 否 发 生 错误 ， 默 认 值 为 0 表示 没有 错 

R, GUAL, 表示 遇 到 一 个 或 者 多 个 错误 。 

@ 输 出 数据 集 描述 符 信息 : SAS 为 每 一 个 输出 数据 集 创建 和 维护 的 元 数据 信息 ， 包 
括 数据 集 属 性 和 变量 属性 。 比 如 数据 集 名 字 、 成 员 类 型 、 创 建 日 期 、 创 建 时 间 、 观 测 数 、 
变量 名 称 、 类 型 (字符 型 / 数值 型 ) 等 。 

下 面 我 们 考察 一 段 SAS 代码 的 编译 过 程 来 了 解 细 节 ， 首 先 需 要 注意 DATA 步 内 的 
SAS 语句 分 成 两 种 : 一 种 是 声明 性 (DECLARATIVE) 语句， 用 于 为 SAS 提供 信息 并 在 
编译 阶段 起 作用 ;， 另 一 种 是 可 运行 (EXECUTABLE) 语句 ， 在 DATA 步 的 每 一 次 隐 性 
循环 时 执行 某 个 动作 。 

对 于 下 面 的 例子 〈 见 程序 2-43) ， 注 释 是 声明 性 的 语句 在 DATA 步 内 的 顺序 不 那么 
重要 ， 由 于 它们 在 编译 时 被 SAS 解析 使 用 ， 因 此 并 不 涉及 执行 顺序 问题 。 然 而 ， 由 于 
某 些 声 明 性 语句 引用 的 参数 可 能 需要 依赖 于 前 面 某 条 语句 的 编译 结果 ， 因 此 声明 性 语句 
依然 有 潜在 的 编译 顺序 问题 需要 考虑 。 比 如 下 面 的 例子 中 ， 声 明 性 语句 WHERE 就 由 于 
AGE, SEX 变量 依赖 于 SASHELP.CLASS, 因此 需要 把 WHERE 语句 放 到 可 执行 语句 SET 
之 后 ， 只 有 编译 了 SET 语句 才能 在 WHERE 语句 中 使 用 AGE, SEX 变量 。 
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程序 2-43 ”DATA 步 编译 运行 机 制 
data myclass; 
set sashelp.class; 
where age>12 and sex=' 男 '; /* 声 明 性 语句 */ 
BMI-(weight * 0.4535924)  / ((height*2.54/100) **2); 


format BMI 4.1; /* 声 明 性 语句 */ 

label BMI=" 体 质 指数 "; /* 声 明 性 语句 */ 

drop weight height; /* 声 明 性 语句 */ 
run; 


上 面 的 代码 进行 编译 ， 第 1 行 告诉 SAS 编译 器 开始 一 个 数据 步 ， 输 出 数据 集 的 名 字 
是 myclass; 第 2 行 告诉 编译 器 从 sashelp.class 中 读 取 数 据 ; 第 3 行 则 告诉 SAS 编译 器 
只 需要 读 取 年 龄 大 于 12 且 为 男性 的 数据 ; 第 4 行 告 诉 SAS 编译 器 新 建 一 个 数值 型 计算 
变量 BMI， 即 体质 指数 Body Mass Index， 它 和 身高 体重 符合 指定 的 数学 计算 关系 ; 第 5 
行 则 告诉 编译 器 设置 新 建 变量 的 输出 格式 是 长 度 为 4 位 但 保留 1 位 小 数 ， 第 6 行 则 告诉 
编译 器 设置 新 建 变量 的 文本 标签 为 “体质 指数 ”; 第 7 行 则 告诉 编译 器 在 输出 数据 集 时 
剔除 变量 height 和 weight。 一 旦 数据 步 编译 遇 到 RUN 语句 时 ，SAS 步 宣 告 编译 结束 并 
自动 开始 执行 代码 。 


242 ”运行 阶段 


一 旦 编译 成 功 ， 执 行 阶段 开 始 。SAS 的 执行 主要 包含 如 下 步骤 。 

(1) SAS 首先 会 从 DATA 语句 处 开始 执行 ， 如 果 是 第 一 次 执行 ，SAS 会 设置 内 部 
变量 N_=1 和 _ERROR =0， 否 则 会 对 内 部 计数 器 ON 自动 加 1， 用 于 执行 计数 。 

(2) 默认 情况 下 ，SAS 从 外 部 原始 数据 文件 中 读 取 一 条 数据 记录 到 输入 缓冲 区 TB. 
中 ， 然 后 创建 对 应 的 PDV， 或 者 直接 从 SAS 数据 集中 读 取 一 个 观测 直接 复制 到 程序 数 
据 向 量 PDV 中 。SAS 会 以 缺失 值 对 程序 数据 向 量 (PDV) 中 那些 由 INPUT 语句 和 赋值 
语句 创建 的 变量 进行 初始 化 ， DATA 步 的 子 语句 INPUT 和 SET. MERGE, MODIFY, 
UPDATE 都 可 以 用 来 读 取 一 条 记录 ， 但 那些 以 SET、 MERGE. MODIFY 或 UPDATE 
语句 读 取 的 变量 并 不 会 被 重 置 为 缺失 值 。 

G) 对 当前 记录 ， 执 行 后 续 的 SAS 可 执行 语句 ， 包 括 赋值 、 计 算 和 更 新 等 。 

(4) 当 执 行 到 DATA 步 的 最 后 时 ， 隐 含 的 SAS 语句 OUTPUT, RETURN 和 
RESET 被 自动 触发 。 如 果 DATA 语句 包含 输出 数据 集 名 称 ，SAS 会 将 当前 PDV 中 的 变 
量 作 为 一 个 观测 写 入 输出 数据 集 。 程 序 执行 自动 返回 到 DATA 步 开始 处 进行 下 一 次 隐 性 
循环 。 如 果 SAS 读 取 外 部 文件 或 SAS 数据 集结 束 ， 则 整个 DATA 步 执行 终止 ,进入 下 
一 个 DATA 步 或 PROC 步 的 编译 执行 过 程 。 

考察 前 面 样 例 代码 的 运行 过 程 ， 执 行 时 最 重要 的 内 存 结构 就 是 程序 数据 向 量 PDV， 
SAS 会 为 需要 输出 到 目标 数据 集 的 那些 变量 ,创建 必要 的 描述 符 信息 一 一 包括 数据 集中 
各 列 的 名 称 、 类 型 、 长 度 、 输 出 格式 、 标 签 等 .上面 例子 中 PDYV 在 运行 时 变化 简单 如 图 2-21 
所 示 。 感 兴趣 的 读者 也 可 以 在 每 行 语句 后 面 插入 语句 PUT_ALL ; KEA PDV 中 各 变 
量 的 变化 过 程 。 
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2-21 DATA 步 语句 与 PDV 运行 时 变化 


其 中 DATA 步 中 的 新 建 变量 (如 体质 指数 BMI) 首先 也 会 以 缺失 值 “.” 进 行 初始 化 ， 
随后 在 执行 赋值 语句 时 对 表达 式 重 新 求 值 ， 赋 给 新 变量 然后 执行 下 一 行 语句 。 在 DATA 
步 的 最 后 ，SAS 会 将 PDV 中 除了 HEIGHT WEIGHT 外 没有 删除 标志 的 非 临时 变量 及 其 
值 写 入 目标 数据 集 ， 然 后 控制 流程 再 返回 DATA 步 的 开始 处 进入 下 一 次 循环 。 

当 SAS 进入 下 一 次 循环 时 ，PDYV 内 部 临时 变量 N_ 计数 器 会 自动 加 1， 对 于 非 
INPUT 语 句 读 取 的 数据 , SAS 会 保留 上 次 读 取 PDYV 的 变量 值 直到 被 新 读 取 的 观测 所 覆盖 。 
XIF DATA 步 中 的 新 建 变量 (如 体质 指数 BMI), SAS 会 重新 使 用 缺失 值 “.” 进 行 初始 化 。 
当 运 行 到 读 取 数 据 的 SAS 语句 SET 时 ，SAS 会 自动 将 输入 数据 集 SASHELP.CLASS 中 
的 第 二 个 观测 读 取 PDV 并 重新 计算 变量 的 BMI 值 ， 然 后 在 DATA 步 的 最 后 将 PDV 中 
的 值 作为 第 二 个 观测 (记录 ) 输出 到 结果 数据 集 MYCLASS 中 。 最 后 控制 流程 再 次 返回 
DATA 步 的 开始 处 ， 重 复 执行 上 面 的 处 理 逻 辑 直 到 源 数据 集 或 外 部 文件 所 有 数据 被 处 理 
完毕 。 

从 上 面 的 执行 逻辑 可 以 看 出 ，DATA 步 此 时 是 自 带 “ 隐 性 循环 ”， 原 因 是 代码 中 用 
T SET 语句 。SAS 数据 步 在 读 取 数 据 集 或 外 部 文件 时 的 这 种 独特 隐 性 循环 设计 ， 可 为 用 
户 处 理 数据 时 提供 了 非常 简洁 自然 的 处 理 逻 辑 。 比 如 下 面 几 行 简洁 的 代码 就 可 以 读 取 当 
前 计算 机 的 ODBC 配置 信息 ， 并 将 每 一 行 显示 在 SAS 日 志 窗口 。 代 码 中 看 不 到 循环 语 
句 却 自 带 循环 处 理 机 制 〈 见 程序 2-44) o 

程序 2-44 ”基于 读 取 数据 的 隐 性 循环 机 制 

data null ; 

length line $ 255; 
infile "C:NwindowsVodbcinst.ini" delimiter-'0ODO0A'x ; 
input line; 


put N line; 
run; 


2.5 DATA 步 语 名 快速 索引 


表 2-1 列 出 了 SAS DATA 步 支持 的 全 部 子 语 句 和 功能 描述 ， 第 1 列 类 别 为 D 表示 该 
语句 为 声明 性 语句 ， 否 则 为 可 执行 语句 。SAS 语句 在 功能 上 可 分 为 六 大 类 : 信息 语句 、 
控制 语句 、 动 作 语句 、 文 件 处 理 语句 、 窗 口语 句 和 其 他 语句 。 后 面 的 章节 中 将 会 对 部 分 
语句 进行 深入 展开 。 
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表 2-1 SAS 数据 步 语句 和 功能 描述 
类 别 
信息 语句 : 为 SAS 编译 器 提供 关于 PDV 或 输出 数据 集 额外 的 信息 
ARRAY 定义 数组 元 素 
数组 引用 描述 需要 被 处 理 的 数组 元 素 ， 如 a[1]=1: 
ATTRIB 关联 一 个 或 若干 个 变量 的 属性 : 长度， 输入 /输出 格式 ， 标 签 
LENGTH 设置 变量 的 存储 长 度 属 性 ， 以 字 节 为 单位 
FORMAT/INFORMAT | 设置 变量 的 输出 /输入 格式 属性 
LABEL 设置 变量 的 标签 属性 
RETAIN 设置 INPUT 语句 或 赋值 语句 创建 变量 的 值 在 后 续 隐 性 循环 中 保留 不 变 
DROP/KEEP 是 否 将 变量 输出 到 结果 数据 集中 ? DROP 排除 ，KEEP 保留 
RENAME 将 变量 输出 到 结果 数据 集中 是 将 变量 重 命名 (改变 名 称 ) 
控制 语句 ， 控 制 DATA 步 程序 的 执行 流程 
| |o | 


与 END 语句 配合 标记 一 个 语句 块 ， 相 当 于 C 语言 的 {符号 


与 DO 语句 配合 标记 一 个 语句 块 ， 相 当 于 C 语言 的 } 符号 


| p [jeo | 
条 件 分 支 语句 ， 与 传统 编程 语言 中 的 条 件 分 支 类 似 


多 重 分 支 语句 ， 执 行 一 个 或 多 个 语句 块 ， 类 似 于 C 语言 的 多 分 支 
SELECT Eu 
switch 语句 


基于 某 变量 执行 DO .… END 之 间 的 语句 块 , 相当 于 FOR 循环 

当 条 件 为 真 时 执行 循环 体 ， 即 DO … WHILE 循环 

重 定向 程序 执行 到 指定 语句 标签 处 ， 遇 到 RETURN 返回 到 本 LINK 语 
名 的 下 一 条 语句 继续 执行 

将 程序 执行 返回 到 上 一 执行 点 : 如 果 是 LINK 语句 跳 入 的 则 返回 该 
LINK 语句 的 下 一 条 语句 处 继续 执行 ， 否 则 返回 DATA 步 开 始 处 进入 下 
一 次 隐 性 循环 

动作 语句 : 执行 某 个 动作 ， 如 赋值 或 调用 函数 ， 或 者 调用 SAS 例 程 

WHERE 从 输入 数据 集中 选择 满足 特定 条 件 的 观测 ， 否 则 返回 DATA 的 开始 处 
赋值 语句 = 执行 表达 式 并 将 结果 赋 给 变量 ， 如 foo-10: 

累加 语句 + 对 加 号 右 侧 的 表达 式 求 值 ， 并 将 结果 与 左 侧 的 变量 相 加 后 赋 给 左 侧 的 
变量 ， 实 现 累加 功能 ;加 号 左 侧 变量 默认 初 值 为 0， 比 如 sumti; 

CALL 调用 CALL 例 程 ， 相 当 于 调用 子 过 程 ， 如 call execute (*…) 

OUTPUT 将 当前 PDV 中 没有 删除 标志 的 变量 集 输出 到 结果 数据 集 

PUTLOG 写 SAS 日志 

正 取 子 集 只 有 特定 表达 式 条 件 满足 时 才 往 后 继续 执行 

REMOVE 从 数据 集中 删除 一 个 观测 

REPLACE 在 同样 位 置 替换 一 个 观测 

DELETE 停止 处 理 当 前 观测 
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GER) 
语 d x 
STOP 停止 执行 当前 数据 步 ， 不 报告 错误 。 多 用 于 随机 数据 访问 
ABORT 停止 执行 当前 数据 步 ，SAS 作业 或 者 SAS 会 话 ， 会 报告 错误 
ERROR 设置 ERROR 为 1， 也 可 设置 写 入 SAS LOG 的 错误 消息 
DESCRIBE 从 编译 的 数据 步 程序 或 数据 步 视图 中 解析 源 代码 
EXECUTE 执行 一 个 编译 好 的 数据 步 程 序 
REDIRECT 执行 存储 程序 时 指向 不 同 的 输入 / 输出 数据 集 
LIST 将 当前 正在 处 理 观测 的 输入 数据 写 入 SAS 日 志 ， 常 用 于 调试 
当 一 个 观测 有 多 个 记录 ，SAS 处 理 遇 到 缺失 或 无 效 记 录 时 ， 用 于 重新 
同步 输入 数据 
v 处 理 数据 集 的 输入 文件 或 者 DATA 步 的 输出 文件 
DATA 开始 一 TR, _ 并 提供 输出 数据 集 ， 视图 或 程序 的 名 称 
WRAAE ANNT, 数据 块 结束 于 4 TEESE 
AEEA MARI SAS 变量 
INPUT 〈 列 /格式 化 /| 以 特定 输入 格式 读 取 值 并 赋 给 相应 的 SAS 变量 
列表 /命名 ) 扫描 输入 数据 记录 ， 读 取 值 并 赋 给 相应 的 SAS 变量 
按 名 值 对 方式 读 取 变量 并 赋 给 相应 的 SAS 变量 。 


LOSTCARD 


输出 文本 行 到 SAS H 志 ，SAS 输出 窗口 ， 或 最 近 指定 的 外 部 文件 的 特 
定位 置 


将 变量 值 和 特定 字符 串 写 到 特定 输出 行 
将 变量 名 称 ， 等 号 和 变量 值 输出 
从 一 个 或 多 个 数据 集中 读 取 一 个 观测 
将 来 自 两 个 或 多 个 数据 集 的 观测 合并 为 一 个 观测 
UPDATE 通过 应 用 事务 处 理 更 新 一 个 主 文件 
MODIFY 替换 ， 删 除 或 追加 记录 到 一 个 已 经 存在 的 数据 集 ， 而 不 创建 额外 复制 
窗口 语句 : 定义 或 显示 自 定义 窗口 ， 用 于 SAS 代码 运行 的 用 户 交互 
WINDOW 为 应 用 创建 定制 窗口 用 于 交互 
DISPLAY 显示 用 WINDOW 语句 创建 的 定制 窗口 
其 他 语句 
空 语句 空 语句 ， 不 执行 任何 操作 
RESETLINE 重 置 输出 到 SAS 日 志 中 的 程序 行 号 为 1 
FILE. ODS 用 ODS 打开 特定 文件 
PUT. ODS 用 ODS 向 特定 文件 进行 操作 
DECLARE 声明 对 象 (Hash. Hiter, JavaObj. ODSOUT) 以 及 DS2 变量 或 临时 数组 
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本 章 我 们 先 介绍 了 利用 SAS 创建 数据 集 的 几 种 灵活 方法 ， 随 后 介绍 了 DATA 步 运 
行 机 制 。 深 刻 理解 DATA 步 的 编译 运行 机 制 对 掌握 SAS 编程 至 关 重要 ， 灵 活 使 用 DATA 
步 可 为 数据 分 析 之 前 的 数据 处 理 提供 各 种 变换 和 处 理 的 功能 。 

下 面 以 一 个 简单 的 SAS 程序 〈 见 程序 2-45) 结束 本 章 学 习 ， 该 程序 用 于 生成 黄金 
分 割 数 列 的 前 10 项 。 黄 金 分 割 数列 又 称 斐 波 那 契 数列 ， 第 1 项 和 第 2 项 为 1， 从 第 3 项 
开始 任 一 项 为 前 面 两 项 之 和 ;， 随 着 项 数 的 增加 ， 后 一 数 与 前 一 数 的 比例 越 来 越 接近 于 黄 
金 比例 g=(1+Y5)/2 1.6180339887。 黄 金 分 割 数列 的 分 布 在 平面 上 呈现 出 极致 的 均衡 
与 和 谐 之 美 ， 它 以 完整 铺 满 整 个 几何 平面 ， 著 名 的 帕斯卡 三 角 式 的 浅 对 角 线 数字 之 和 也 
刚好 构成 黄金 分 割 数 列 〈 见 图 2-22〉。 长 宽 比 为 $ 的 和 矩形 被 称 为 黄金 矩形 ， 据 说 古 希腊 
雅典 卫 城 的 帕 台 农 神 庙 的 宽度 和 高 度 比 接近 于 黄金 比例 Go 


图 2-22 ”黄金 分 割 数列 的 正方 形 可 螺旋 铺 满 整 个 平面 


程序 2-45 ”生成 黄金 分 割 数列 前 10 个 数 到 WoRK.FBNC 中 
data Fbnc; 
do n-1 to 10; 
if n-1 or n-2 then x-1; 
else x-xl * x2; 
x2-x1; xl-x; 
output; 
end; 
keep x;; 
format x best32.; 
run; 
proc print data-fbnc;run; 


系统 输出 如 下 〈 见 图 2-23) 。 


aula N = 
mE 


8 
7/13 
8 21 
9 34 
10 55 


2-23 ”前 10 个 黄金 分 割 数列 
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通过 修改 参数 ， 上 面 的 程序 最 多 能 够 计算 出 前 1476 个 黄金 分 割 数列 ， 从 第 1477 位 
开始 将 出 现 计算 溢 出 现象 。 由 于 SAS 能 够 保持 16 位 有 效 精度 ， 因 此 数列 中 前 78 个 是 毫 
无 精度 损失 的 计算 结果 。 持 久 化 输出 到 SAS 数据 集 后 从 第 79 个 到 第 154 个 数 虽然 系统 
用 完整 的 整数 表示 ， 但 其 精度 已 经 部 分 丢失 ， 系 统 从 155 位 开始 使 用 科学 计数 法 表示 。 
因此 ， 严 格 地 说 上 面 的 程序 只 能 处 理 78 个 精确 表示 的 黄金 数列 。 如 果 用 C 语言 或 Java 
语言 实现 上 面 的 逻辑 结果 会 更 糟 ， 要 解决 这 种 问题 需要 引入 高 精度 计算 机 制 ， 后 面 的 章 
节 中 会 探讨 如 何 生成 任意 长 度 ， 无 精度 损失 的 黄金 分 割 数列 。 


变量 与 表达 式 


3.1 常量 与 变量 


认识 世界 的 第 一 步 是 正确 命名 各 种 实体 ， 在 SAS 程序 世界 中 ， 标 识 符 是 就 是 用 于 命 
名 编程 语言 实体 的 名 称 。 常 用 的 标识 符 分 为 变量 名 和 成 员 名 两 大 类 ， 包 括 常量 名 、 变 量 
名 、 数 组 名 、 函 数 名 、 风 辑 库 和 文件 引用 名 称 、 成 员 和 数据 集 名称 等 。 标 识 符 名 称 只 能 
以 字母 或 下 划 线 开头 ， 由 字母 、 下 划 线 或 数字 组 成 。 大 部 分 SAS 标识 符 名 称 遵守 不 超过 
32 字 节 的 长 度 规则 ， 其 中 : 

CD 逻辑 库 引 用 / 文件 引用 〈LibreBFileref) 名 称 最 长 为 8 字 节 。 

(2) 函数 /调用 例 程 CFunction/CALL Routines) 名 称 最 长 为 16 字 节 。 

G) 格式 名 长 度 限 制 , 字符 和 数值 型 输入 格式 名 称 最 长 分 别 为 30 字 节 和 31 字 节 ， 
字符 和 数值 型 输出 格式 名 称 最 长 分 别 为 31 字 节 和 32 字 节 。 

(4) 数据 集 的 描述 标签 最 长 为 32 字 节 ， 但 数据 列 的 描述 标签 最 长 可 为 256 字 节 。 

下 面 的 例子 〈 见 程序 3-1) 演示 了 逻辑 库 引 用 和 数据 集 名 称 的 命名 规则 ， 其 中 逻辑 
库 引 用 最 长 只 能 为 8 个 字 节 ， 而 数据 集 名 称 和 变量 名 称 最 长 为 32 个 字 节 。 如 果 你 增加 
一 个 字符 则 会 报 编译 错 。 变 量 名 称 必须 以 字母 或 下 划 线 开始 。 


程序 3-1 ”逻辑 库 引 用 和 数据 集 命名 规则 
libname lib45678 "C:\temp"; /+ 逻辑 库 引 用 名 最 长 8 字 节 */ 


data 1ib45678.tab45678901234567890123456789012;/* 数 据 集 名 最 长 32 字 节 */ 
c0145678901234567890123456789012-10; /* 数 据 列 (变量 名 ) 最 长 32 字 节 */ 
a -10; 
| a-10; 

run; 


在 下 面 的 例子 中 《〈 见 程序 3-2) Filere£f 标识 符 最 长 只 能 为 8 个 字符 。 该 代码 演示 
了 如 何 将 中 文字 符 串 以 UTF-8 文件 编码 方式 写 入 外 部 文件 CA\TEMP\TEST.TXT 中 。 


程序 3-2 文件 引用 命名 规则 


filename file5678 'C:\temp\test.txt' encoding-"utf-8"; 


data null ; 

file file5678; 

put "你 好 ，SaS! "; 
run; 
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SAS 中 有 两 个 系统 选项 用 于 控制 变量 名 和 成 员 名 的 命名 规则 : 
(1) VALIDVARNAME: 指定 SAS 会 话 中 可 以 创建 和 处 理 的 有 效 的 SAS 变量 名 ， 
有 3 个 取 值 可 选 : V7 | UPCASE | ANY， 默 认 值 为 传统 命名 规则 V7, UPCASE 就 是 在 
V7 命名 规则 之 上 要 求 变量 名 大 写 ， 主 要 用 于 兼容 早期 SAS 版 本 ; 如 果 变 量 命名 中 要 包 
含 国家 语言 字符 〈 如 中 文 ) ， 则 必须 指定 该 系统 选项 值 为 ANY。 用 法 如 下 : 


options validvarname-ANY; 


当然 ， 即 使 变量 名 启用 了 ANY 命名 规则 ， 变 量 名 仍然 不 能 与 系统 自动 变量 N 、_ 
ERROR 或 者 其 他 系统 变量 NUMERIC, CHARACTER 和 ALL 命名 相 冲 突 。 

(2) VALIDMEMNAME: 指定 有 效 的 SAS 成 员 名 ， 所 谓 SAS 成员 (MEMBER) 
主要 包括 SAS 数据 集 、 SAS 数据 视图 、SAS CATALOG, SAS 索引 及 SAS ITEM 
STORE 等 数据 组 织 单元 。 有 2 个 可 选取 值 : COMPATIBLE | EXTEND， 默 认 值 为 
COMPAIIBLE。 如 果 成 员 命名 中 要 包含 国家 语言 字符 〈 如 中 文 ) 或 除了 八 *?“<>|: - 
10 个 字符 之 外 的 特殊 字符 ， 必 须 指定 为 EXTEND 取 值 。 其 用 法 如 下 : 


options validmemname-EXTEND; 


如 果 启用 了 扩展 命名 规则 EXTEND， 我 们 就 可 以 在 SAS 里 使 用 非 英文 的 标识 符 来 命 
名 数据 集 。 当 然 英文 句号 “.” 是 SAS 默认 的 成 员 分 隔 符 ， 因 此 即使 启用 了 EXTEND RIA 
命名 规则 ， 成 员 名 命名 仍然 不 得 以 英文 句号 “.” 开 头 ; 而 对 于 SPDE 引擎 访问 的 数据 ， 
名 称 还 要 求 不 得 包含 英文 句号 “.” 且 不 能 以 美元 符 $ 开头 。 简 单 例 子 如 下 《〈 见 程序 3-3): 

程序 3-3 ”变量 名 和 成 员 名 扩展 命名 规则 演示 

libname lib45678 "C:\temp"; /* 逻 辑 库 名 最 长 8 字 节 */ 

data 1ib45678." 中 央 人 民政 府 数据 库 "n; /* 需 要 validmemname=extend 否 则 编译 错 */ 

"中 央 人 民政 府 变量 名 "n=10; /* 需 要 validvarname=ANY 否则 编译 错 */ 


run; 
proc contents;run; 


在 sas 中 可 使 用 如 下 语句 查找 当前 SAS 会 话 中 这 两 个 系统 选项 的 设置 〈 见 程 
序 3-4) : 
程序 3-4 ”查找 当前 系统 选项 设置 


Proc options option=(validvarname validmemname); 
run; 


3.4.1. 变量 长 度 与 缺失 值 


对 于 变量 ， 默 认 情 况 下 SAS 并 不 要 求 变量 预先 声明 。SAS 数值 型 和 字符 型 变量 的 
默认 变量 长 度 都 是 8 字 节 。 数 值 型 变量 通常 只 能 指定 3~8 字 节 的 任何 长 度 ， 其 长 度 限制 
取决 于 具体 的 操作 系统 : 在 Linux/Windows 平台 上 最 小 长 度 为 3 字 节 ， 而 在 IBM 大 型 
机 z/OS 平台 上 最 小 长 度 可 为 2 字 节 。 而 字符 型 则 可 指定 1~32767 字 节 的 任何 长 度 ， 变 
量 的 类 型 和 长 度 在 SAS 数据 中 可 使 LENGTH、FORMAT 或 者 ATTRIB 3 个 语句 中 的 任 
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一 进行 指定 ， 其 中 ATTRIB 语句 可 同时 为 多 个 变量 指定 类 型 和 长 度 ， FORMAT 语句 则 在 
指定 类 型 和 长 度 时 也 指定 了 输出 格式 信息 ， 但 FORMAT 语句 中 指定 的 长 度 仅 对 字符 型 
变量 在 未 指定 长 度 时 有 效 〈 见 程序 3-5) 。 


程序 3-5 ”变量 的 类 型 和 长 度 指定 的 3 种 方法 
data mydata; 
/* 数 值 型 3-8，z/0s 为 2-8*/ 
length nl 8; 
attrib n2 length-8; 
format n3 8.; 
/* 字 符 型 1-32767*/ 
length c1 $ 8; 
attrib c2 length-$8; 
format c3 $8.; 
run; 
proc contents; run; 


SAS 作为 一 种 专业 数据 处 理 语言 ， 需 要 经 常 处 理 统计 学 试验 或 观测 中 没有 获得 的 数 
据 ， 称 为 缺失 值 (MISSING VALUE) 。 缺 失 值 与 传统 编程 语言 中 的 空 值 NULL 不 同 ， 
它 是 数据 分 析 科 学 中 表示 没有 数据 或 观测 缺失 的 特殊 表示 。 数 值 型 缺失 值 在 SAS 语言 
用 单个 小 数 点 符号 “.” 表示 , 字符 型 缺失 值 用 引号 括 起 来 的 单个 空格 字符 “ ”表示 OR 
程序 3-6) 。 

程序 3-6 sash KEXEI 

data null ; 

missingnum-.;  ”* 指 定数 值 型 缺失 值 ; 


missingstr-' '; * 指 定 字符 型 缺失 值 ; 
*call missing(missingnum, missingstr);/*iECALL 例 程 用 于 将 变量 置 为 缺失 值 */ 


nullstr-""; * 对 于 字符 型 变量 ， 传 统 的 空 字符 也 被 当 作 缺 失 值 看 待 ; 


* 检 测 变量 是 否 为 缺失 值 ; 

if missingnum=. then put "missingnum is missing"; 
if missingstr-' ' then put "missingstr is missing"; 
if nullstr-' ' then put "nullstr is missing"; 


* 使 用 missing 函数 来 检查 缺失 值 ; 

if missing(missingnum) then put "missingnum is missing"; 
if missing(missingstr) then put "missingstr is missing"; 
if missing(nullstr) then put "nullstr is missing"; 


length dotstr $ 1; * 对 于 字符 型 变量 ， 赋 给 . 等 价 于 赋 给 "."; 


dotstr-.; 

if dotstr-'.' then put "dotstr is equal to '.'"; 

if missing(dotstr)-0 then put "dotstr is NOT missing"; 
run; 
系统 输出 : 


missingnum is missing 
missingstr is missing 
nullstr is missing 

missingnum is missing 
missingstr is missing 
nullstr is missing 
dotstr is equal to 
dotstr is NOT missing 


T 
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3.12 ”数值 常量 


在 SAS 语言 的 DATA 步 中 ， 可 在 表达 式 中 直接 定义 一 个 数值 型 或 字符 型 常量 。SAS 
变量 存储 本 身 不 区 分 整 型 与 浮 点 型 ， 它 是 一 个 8 字 节 有 符号 双 精 度 浮 点 数 。 在 SAS 代码 
中 用 整 型 和 浮 点 型 常量 表达 式 给 变量 赋值 的 时 要 特别 注意 精度 控制 范围 。 

e 整数 和 浮 点 数 常 量 表达 式 

数值 型 常量 可 以 用 整数 、 定 点 实数 以 及 科学 计数 法 表示 。 当 用 户 将 一 个 数值 常量 表 
达 式 赋 给 某 个 变量 时 需要 特别 注意 其 精度 保持 范围 。 默 认 情况 下 ， 无 精度 损失 的 最 小 和 
最 大 整数 区 间 为 -9007199254740992 到 9007199254740992。 它 们 对 应 的 十 六 进 制 表示 为 
FFE0000000000000 一 0020000000000000。 超 过 此 范围 的 整数 常量 表达 式 赋值 会 有 隐 性 精 
度 损 失 ， 用 户 可 以 执行 如 下 程序 〈 见 程序 3-7) 来 对 比 不 同 运行 结果 。 

程序 3-7 DATA 步 的 数值 型 常量 

data null ; 


intc min--9007199254740992; intc max- 9007199254740992; 
put "Integer Constant: " intc min 17. " ~ " intc max 17.; 


* 区 间 内 的 数值 ; 
intc min2= intc min + 1; intc max2- intc max - 1; 
put "Internal Constant: " intc min2 17. " ~ " intc max2 17.; 


* 区 间 外 的 数值 ， 精 度 损 失 . . . ; 


intc min2- intc min - 1; intc max2- intc max * 1; 
put "External Constant: " intc min2 17. " ~ " intc max2 17.; 
put; 


* 区 间 外 的 数值 ， 精 度 损失 ; 
intc min3--9007199254740993; intc max3= 9007199254740993; 
put "External Constant: ^" intc min3 17." ~ " intc max3 17.; 


* 区 间 外 的 数值 重新 回 到 区 间 内 ; 

intc min4- intc min3+1; intc max4= intc max3-1; 

put "Internal Constant: 9 intc min4 17." ~ " intc max4 17.; 
run; 


系统 输出 : 


Integer Constant: -9007199254740992 ~ 9007199254740992 
Internal Constant: -9007199254740991 ~ 9007199254740991 
External Constant: -9007199254740992 ~ 9007199254740992 


External Constant: -9007199254740992 ~ 9007199254740992 
Internal Constant: -9007199254740991 ~ 9007199254740991 


浮 点 数 常量 表达 式 包含 小 数 点 ， 它 支持 除 小 数 点 外 共 11 位 有 效 数 字 ， 包 括 符号 位 。 
如 果 用 科学 计数 法 表示 ， 除 小 数 点 外 的 整个 数字 的 有 效 位 为 11 位 ， 包 括 尾 数 、 符 号 卫 
以 及 王后 的 符号 位 和 指数 等 内 容 。SAS 浮 点 数 可 表达 的 数值 范围 为 : 士 2.22507E-308 
到 + 1.797693E308, 1E SAS 内 部 对 应 的 十 六 进 制 存储 表示 为 000FFFFE2E8159D1 到 
7FEFFFFFD7B9609A。 最 小 最 大 的 正 数 浮 点 数 也 可 由 系统 函数 constant ("SMALL") 
和 constant ("BIG") 返回 。 程 序 3-8 可 说 明 SAS 的 浮 点 数 常量 精度 范围 。 
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3.1.3 日 期 /时 间 / 日 期 时 间 常 量 


在 SAS 中 日 期 /时 间 / 日 期 时 间 是 3 种 特殊 的 数值 型 数据 ， 其 常量 定义 采用 双 引 
号 或 单 引号 后 加 d、t、dt 或 D、T、DT 进行 表示 〈( 即 Date, Time 和 DateTime I Afi 
写 ) o SAS 中 的 日 期 时 间 定 义 与 别 的 厂家 不 同 。 它 的 DateTime 定义 是 从 公历 1960 4E 1 
月 1 日 00:00:00 开始 的 秒 数 ， 而 微软 对 于 DateTime 的 定义 则 是 从 公历 0001 年 1 月 1 日 
00:00:00 开始 的 咬 哄 数 〈 在 计算 机 内 1s 等 于 1000 FARRO o FEE 3-10 演示 了 如 何 
利用 日 期 常量 ， 时 间 常 量 以 及 日 期 时 间 常 量 对 变量 进行 赋值 。 

程序 3-10 Data 步 的 日 期 /时 间 以 及 日 期 时 间 常 量 

data null ; 

d-'02JAN1960'd; 


t-'00:00:01't; 
dt-'Ol1JAN1960 00:00:01'dt; 


put " d-" d date.; 
put " t-" t time.; 
put "dt-" dt datetime.; 


put "value-" d t dt; 
if d-t AND d-dt then put "SAME INTERNAL VALUE"; 
run; 


上 面 的 代码 运行 结果 表明 ，d、t 和 dt 不 指定 格式 时 的 输出 值 都 等 于 1， 但 它们 的 语 
义 却 完全 不 同 : 变量 d 表示 的 是 时 期 1960 年 1 月 2 日 ， 变 量 + 表示 的 是 时 间 00:00:01, 
而 变量 dt 表示 的 是 1960 年 1 月 1 日 凌晨 00:00:01。 


3.1.4 字符 常量 


字符 常量 需要 使 用 单 引 号 或 者 双 引 号 括 起 来 ， 两 者 的 区 别 是 单 引号 字符 串 不 进行 宏 
展开 ， 而 双 引 号 中 的 字符 串 则 会 进行 宏 展开 。 宏 展开 是 SAS 宏 处 理 器 在 编译 时 对 该 字符 
串 进行 宏 解析 ， 生 成 最 终 的 SAS 代码 供 SAS 编译 器 进行 编译 的 过 程 。 字 符 串 常量 中 字 
符 大 小 写 是 敏感 的 ， 而 SAS 代码 中 的 关键 字 和 标识 符 大 小 写 是 不 敏感 的 。 

考察 如 下 代码 〈 见 程序 3-11) o 


程序 3-11 字符 常量 以 及 双 引 号 中 的 宏 变量 
data null ; 
c-"&sysver"; 
put "SAS Version is 


$ ws 


c2-'&sysver'; 
put "SAS Version is 


" E23 


run; 
输出 结果 如 下 ， 其 中 第 一 行 正 确 获 得 了 当前 SAS 的 版 本 号 ， 而 第 2 行 则 返回 原始 字 
符 串 。 


SAS Version is 9.3 
SAS Version is &sysver 
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在 SAS 中 如 果 变 量 名 称 要 包含 空格 或 者 国家 语言 特定 的 字符 〈 如 中 文 ) NU 
我 们 可 以 使 用 Name Literal 来 命名 它 。 其 定义 形式 就 是 一 个 单 引 号 或 双 引 号 括 起 来 
的 字符 串 常 量 ， 在 引号 后 面 加 上 n 或 者 N 即 可 。SAS 支持 这 种 特殊 的 变量 命名 是 由 
于 它 需 要 跟 外 部 的 存储 系统 ， 如 关系 数据 库 DBMS 的 表 名 和 列 名 打交道 ， 因 此 需要 
在 SAS 代码 中 做 特殊 处 理 进行 映射 。 注 意 Name Literal 命名 方式 需要 启用 系统 选项 
VALIDVARNAME=ANY。 考 察 如 下 代码 〈 见 程序 3-12) 。 


程序 3-12 Name Literal 命名 方式 
options validvarname-ANY; /* 启 用 变量 任意 命名 选项 */ 


data null ; 
pi=3.1415926; 


c-"PI"; c2-"pi"n; /* 变 量 c2 从 变量 pi 中 取 值 */ 
put Tar a2; 
"var 1"n = 100; /* 双 引号 方式 ， 小 写 n*/ 
put "var l=" "var 1"n; 
"变量 1'N = 100; /* 单 引号 方式 ， 大 写 N*/ 
put "变量 1=”“' 变 量 1'N; 

run; 

系统 输出 如 下 : 

PI =3.1415926 

var 1=100 

变量 1=100 


任何 编程 都 是 从 常量 和 变量 开始 构建 复杂 的 程序 世界 。SAS 语言 与 传统 编程 语言 不 
同 之 处 在 于 它 生 而 为 数据 分 析 科学 而 设计 ， 它 从 根 上 定义 了 面向 分 析 的 数据 类 型 和 表达 
方式 。 尽 管 SAS 保留 了 对 字 节 和 比特 位 的 操作 能 力 ， 但 SAS 编程 人 员 的 视角 更 多 地 是 
基于 一 种 面向 数据 分 析 和 统计 学 语义 的 数据 表达 ， 而 不 是 基于 字 节 和 位 操作 之 上 的 面向 
机 器 数据 结构 和 算法 体系 的 视角 。 


3.2 表达 式 


在 SAS 语言 中 ，SAS 表达 式 是 SAS 语句 的 组 成 部 分 ， 是 构成 SAS 程序 的 一 系列 操 
作 数 和 运算 符 的 组 合 。 其 中 操作 数 包 括 常量 和 变量 ， 运 算 符 则 包括 算术 运算 、 关 系 运算 、 
逻辑 运算 等 类 型 。SAS 表达 式 也 包括 赋值 运算 及 一 些 SAS 特有 的 运算 类 型 。 


3.2.1 运算 符 


OO 算术 运算 符 : 用 于 数值 常量 或 变量 的 算术 运算 ( 见 表 3-1) ,包括 加 法 +\ WIE- 
乘法 < 除法 /和 乘 方 ** 等 运算 。 算 术 运 算 符 的 优先 顺序 为 “ 乘 方 优先 , 先 乘除 后 加 减 ”; 
在 表达 式 中 可 用 小 括号 来 人 为 限定 运算 的 优先 顺序 〈 见 程序 3-13) 。 
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表 3-1 算术 运算 符 


e= 
f= 
g= 
h= 
i= 


put "d=" d "e=" e "f=" f "g=" g "h=" h "i=" i; 
run; 


输出 结果 为 d=7 e-12 f-0.75 g-9 h-6.3333333333 i-5.8333333333 


(2) 关系 运算 符 : 用 于 比较 常量 或 变量 是 否 相等 , 以 及 它们 的 大 小 关系 ( 见 表 3-2) 。 
结果 为 真 返回 1， 否 则 返回 0。 


表 3-2 关系 运算 符 


Lx [0 Th [-——L——L——] 


各 种 关系 运算 符 也 可 以 分 别 使 用 对 应 的 别名 EQ, NE. LT. LE. GT. GE 表示 ,其 
中 不 等 于 、 小 于 等 于 和 大 于 等 于 还 可 使 用 早期 变 体 一 、=< 和 一 表示 。 数 值 型 数据 的 
比较 基于 数值 大 小 进行 ;而 字符 型 数据 则 基于 字符 的 码 点 值 大 小 进行 比较 ，SAS 规定 缺 
失 值 和 空格 字符 在 比较 运算 中 比 任何 可 打印 字符 都 小 。 为 了 跟 早 期 SAS 版 本 兼容 ，SAS 
表达 式 中 的 不 等 于 运算 符 = 也 可 以 写作 一 ， 而 小 于 等 于 <= 和 大 于 等 于 >= 也 可 以 写作 
=< 和 =>， 不 过 现在 已 经 很 少 人 使 用 这 种 写法 。 考 察 如 下 代码 〈 见 程序 3-14) 。 

程序 3-14 关系 运算 范例 


data null ; 
a= 3; b=4; c=5; d=6; 


e-(a “= b); f-(a s jy 
put "(a^-b)-" e "(a~=b)=" f; 


g-(a => b); h-(a =< b ): 
put "(a-»b)-" g "(a-«b)-" h; 


if d GT c then put "Alias work"; 
run; 


输出 结果 为 


(a^-b)-1 (a~=b)=1 
(a=>b)=0 (a-«b)-1 
Alias work 
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传统 的 C/C++ 语言 中 的 等 于 和 不 等 于 运算 符 为 一 和 !=， 而 SAS 依然 使 用 单字 符 = 
和 双 字 符 ^ 来 表示 等 于 和 不 等 于 运算 。 此 外 ，SAS 语言 还 支持 一 些 特殊 的 关系 表达 式 
写法 ， 如 SAS 可 以 把 变量 写 在 中 间 ， 变 量 前 后 都 是 运算 符 ， 比 如 : 3<=x<=5， 它 对 应 的 
别名 写法 就 是 3<=x AND x <=5， 表 示 x 介 于 3 和 5 之 间 。 
G) 逻辑 运算 符 ， 用 于 表达 式 中 的 逻辑 运算 ， 包 括 逻辑 与 、 罗 辑 或 和 届 辑 非 3 种 
运算 〈 见 表 3-30 。 也 可 使 用 对 应 的 别名 AND, OR 和 NOT 表示 ， 其 中 逻辑 或 也 可 用 
早期 变 体 | 或 ! 表示 。 


表 3-3 ZAZA 


运算 符 & | ^ 
释义 逻辑 与 逻辑 或 逻辑 非 


在 各 种 编程 语言 中 ， 通 常 假 (False) 用 0 表示 ， 真 (True) 用 1 表示。 而 在 SAS 
程序 中 0 或 缺失 值 都 被 视 为 假 ， 而 任何 非 0 值 和 非 缺 失 值 则 被 视 为 真 。 因 此 ，SAS 
程序 中 单个 数值 变量 默认 可 参与 逻辑 运算 ， 只 要 它 不 是 0 或 缺失 值 都 会 被 视 作 真 〈 见 
程序 3-15) 。 

程序 3-15 ”逻辑 运算 范例 


data null ; 
a= 3; b=4; c=5; d=6; 


e -(a«b)| (c»d) ; 
e2-(a«b)i(c»d); e3-(a«b)!(c»d); 


f= (a«b) & (c»d); 
g-^(a«b); 


if a then put "a is true"; 


put "or-" e "and-" f "not-" g; 
put "or-" e2 "or-" e3; 
run; 


输出 结果 为 

a is true 

or-1 and-0 not-0 
or-l or-1l 


与 C/C++ 的 逻辑 运算 符 不 同 ，SAS 的 “逻辑 与 ” 跟 “ 逮 辑 或 ”采用 单字 符 表示 ， 
而 且 感 叹 号 ! 符 在 SAS 中 是 逻辑 或 ， 而 在 C/C++ 中 是 逻辑 非 操作 ， 双 竖 线 符号 || 在 
SAS 中 是 字符 串 拼 接 操 作 ， 而 在 C/C++ 中 是 逻辑 或 运算 。 

除 上 面 列 出 的 运算 符 外 ，SAS 语言 还 有 一 些 其 他 语言 没有 的 特殊 运算 符 〈 见 表 34) ， 
包括 : 


表 3-4 ”特殊 运算 符 
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取 最 大 值 / 最 小 值 运算 符 为 — 和 ><， 相 当 于 MAXMIN 函数 ， 但 在 SAS 语言 中 它 
被 当 作 一 种 基本 运算 符 存在 。SAS 支持 多 种 缺失 值 ， 如 果 特 殊 缺 失 值 是 表达 式 中 比较 运 
算 的 一 部 分 ，SAS 则 会 用 缺失 值 的 排序 顺序 进行 比较 ， 即 以 小 数 点 后 的 字母 进行 比较 ， 
比如 缺失 值 .A > .Z 返回 .Z( 见 程序 3-16)。 
程序 3-16 取 最 大 /最 小 值 运算 范例 
data null ; 
max= 3<>5; 


min= 3><5; 
max missing- .2<>.a; 


put "Max-" max "Min-" min "MAX MISSING-." max missing; 
run; 


输出 : 
Max=5 Min=3 MAX MISSING=.2 
注意 : 由 于 部 分 计算 机 语言 使 用 一 作为 不 等 于 运算 符 ， 因 此 需要 警惕 该 运算 符 在 
SAS 表达 式 中 可 能 引起 的 歧义 。 程 序 3-17 并 不 是 输出 TRUE， 而 是 输出 FALSE。 由 于 
在 正 语句 里 x — y 返回 的 是 x, 而 x=0 在 SAS 里 是 表示 假 ， 因 此 输出 FALSE， 它 也 不 
表示 变量 x 等 于 变量 y。 
程序 3-17 一 个 可 能 的 “比较 运算 ”陷阱 
data null ; 
x-0; y--1; 
if x «» y then put "TRUE"; 


else put "FALSE"; 
run; 


合 运算 符 IN 是 SAS 语言 特有 的 运算 符 ， 用 于 检查 变量 的 值 是 否 在 一 个 给 定 的 列 
表 中 。 列 表 内 必须 为 常量 、 缺 失 值 或 遍历 器 。 考 察 如 下 例子 ( 见 程 序 3-18) ,变量 b、d 
和 上 都 会 输出 1。 
程序 3-18 ”集合 包含 运算 
data null ; 


a- 3; 
b= a IN (3, 4, 5, 6 ); 


c-"Jane"; 

d-c IN ("Tony", "Jane", "Fox"); 
array e[3] (1, 2, 3); 

f-a IN e; 


put b- d- f-; 
run; 


字符 拼接 运算 符 || 用 于 连接 两 个 字符 型 变量 或 常量 ， 但 该 运算 符 并 不 删除 前 一 个 字 
符 串 尾部 的 空格 ， 用 户 需要 使 用 trim 函数 删除 尾部 空格 再 拼接 字符 串 才 能 得 到 期 望 的 结 
果 ( 见 程序 3-19) o HF SAS 字符 变量 为 定 长 字符 型 ， 它 有 长 度 定 义 且 尾部 会 填充 空 
格 补 齐 ， 因 此 trim 函数 常常 是 必须 的 。 
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程序 3-19 字符 串 拼 接 

data null ; 
length a b $ 8; 
a-"Hello"; 
b-"World"; 
c-trim(a) || " " || b; 
put c; 

run; 


3.2[2 运算 符 优 先 顺序 


当 一 个 表达 式 包含 多 个 运算 符 时 ， 如 果 没有 显示 使 用 括号 来 分 隔 子 表达 式 时 ， 就 会 
涉及 运算 符 优 先 顺序 问题 。 与 其 他 计算 机 语言 一 样 , 表达 式 中 的 括号 O 具有 最 高 优先 级 ， 
用 户 也 可 以 使 用 括号 来 分 隔 表 达 式 指定 结合 顺序 ， 避 免 潜 在 的 歧义 性 。 

R 3-5 为 SAS 运算 符 优先 顺序 的 完整 列表 ， 其 中 乘 方 、 取 最 大 /最 小 值 ， 取 正 负 号 
ie SEHE. GERE 6 种 运算 符 为 第 一 优先 级 且 从 右 到 左 进行 求 值 ， 其 他 的 运算 符 都 是 从 左 
到 右 进 行 求 值 。 编 程 实践 中 鼓励 大 家 明确 使 用 括号 来 分 隔 表达 式 ， 或 者 将 一 个 复杂 表达 
式 分 解 为 多 个 赋值 语句 来 提高 代码 的 可 读 性 。 


表 3-5 SAS 运算 符 优先 级 


era [ann ar) Ez | 
0 | — [ESREHEARR — 

| | 

[way [uim RS — O 
——— pem pa] 
" 
[.— —53 — —] 4 —] M 
[a LL seme a o U 


逻辑 运算 “| 逻辑 或 
赋值 运算 
3.2.3 WHERE 语句 特定 运算 符 


E DATA 步 的 WHERE 语句 中 包含 一 些 特殊 的 运算 符 如 LIKE 和 IS 运算 符 ( 见 
表 3-6) ， 但 它们 只 能 在 WHERE 语句 中 使 用 ， 作 用 范围 非常 有 限 。 
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表 3-6 WHERE 语句 特定 运算 符 
LIKE IS MISSING IS NULL 


TRENN 判断 变量 判断 变量 
是 否 为 缺失 值 | ATASH 


% 表示 任意 字符 串 
_ 表示 任意 单个 字符 


字符 串通 配 符 比较 LIKE 用 于 表达 式 中 模糊 匹配 字符 串 ， 如 WHERE 语句 中 的 LIKE 
字符 串 比 较 ， 其 中 百 分 号 “9%” 表 示 任 意 字 符 串 〈 见 程序 3-20) ， 而 下 划 线 _ 表示 任意 
单个 字符 〈 见 程序 3-21) o 
程序 3-20 ”字符 串 模糊 匹配 
data myclass; 
set sashelp.class; 
where Name like "$8B$"; 


proc print; 
run; 


输出 如 图 3-1 所 示 。 


Obs Name Sex Age Height Weight 
1 爱丽 丝 x 13 56.5 84 
2 玛丽 X 15 66.5 112 


图 3-1 任意 字符 模糊 匹配 查找 


程序 3-21 单个 字符 模糊 匹配 
data myclass; 
set sashelp.class; 
where Name like " 丽 "; 
run; 
proc print; 
run; 


输出 如 图 3-2 所 示 。 


Obs Name Sex Age Height Weight 
1 玛丽 X 15 66.5 112 


图 3-2 单个 字符 模糊 匹配 查找 


对 于 运算 符 IS MISSING 和 ISNULL， 可 在 IS 前 面 加 上 NOT 运算 符 取 反 ， 如 
WHERE NAME NOT IS MISSING 或 WHERE NAME NOT IS NULL 等 。 


3.24 ”赋值 语句 


赋值 语句 用 于 对 一 个 表达 式 进行 求 值 ， 并 把 结果 赋 给 一 个 新 变量 或 者 已 有 的 变量 。 
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赋值 语句 是 极 少数 不 需要 以 关键 字 开 始 的 SAS 语句 ， 其 基本 语法 如 下 : 
VAR - EXPRESSION; 


等 号 前 后 分 别 为 变量 名 和 表达 式 。 右 侧 表达 式 在 求 值 时 ， 需 要 根据 SAS 运算 符 优先 
顺序 进行 求 值 。 如 果 右 侧 表达 式 中 包含 缺失 值 ， 则 计算 的 结果 为 一 个 缺失 值 。 当 表达 式 
右 侧 包含 左 侧 变量 时 ， 变 量 首先 会 在 求 值 过 程 中 先 被 使 用 ， 最 后 才 将 结果 存储 在 左 侧 的 
变量 中 。 考 察 如 下 代码 〈 见 程序 3-22) 。 

程序 3-22 ”赋值 语句 范例 

data null ; 

a-atl; 

b-3; 

b=b+1; 

put a= b=; 
run; 


系统 不 会 输出 a=1， 而 是 输出 a= 缺失 值 。 因 为 变量 a 第 一 次 出 现在 等 号 右 侧 时 为 
缺失 值 ， 如 果 右 侧 表 达 式 中 包含 缺失 值 ， 则 计算 结果 为 缺失 值 。 对 于 变量 b， 则 会 正常 
输出 b=4。 


3.2.5 ”累加 赋值 语句 


SAS 步 中 还 有 一 个 很 特殊 的 变量 累加 赋值 语句 , 它 不 需要 关键 字 也 不 需要 等 号 ， 它 
也 是 极 少数 不 需要 以 关键 字 开 始 的 SAS 语句 ， 其 语法 如 下 : 


VRR+EXPRESSTON7> 


由 于 只 有 数值 型 变量 才能 加 减 运算 ， 因 此 变量 VAR 会 被 SAS 默认 为 是 一 个 数值 型 
变量 并 将 它 初始 化 为 0。 然 后 在 每 次 执行 该 语句 时 都 会 触发 表达 式 EXPRESSION 重新 求 
值 后 与 VAR 变量 累加 并 赋 给 VAR 变量 。 累 加 赋值 语句 左 侧 的 变量 VAR 在 DATA 步 隐 
性 循环 中 不 会 被 自动 清 零 ， 即 相当 于 该 变量 默认 已 经 使 用 RETAIN 语句 进行 声明 。 考 察 
如 下 代码 〈 见 程序 3-23) o 

程序 3-23 ”累加 赋值 语句 

data null; 

set sashelp.class; 
c+1; /* 等 价 于 retain c 0; c-ct1*/ 


put c=; 
run; 


系统 输出 c=1 c=2 … c=19。 


默认 累加 赋值 语句 初始 值 为 0 ， 但 用 户 可 显 式 使 用 RETAIN 语句 指定 其 初始 值 。 下 
面 的 代码 会 输出 C=101 C=102 … C-119 〈 见 程序 3-24) 。 
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程序 3-24 ”指定 初始 值 的 累加 
data null ; 
set sashelp.class; 
retain c 100; 
c=c+1; /* 也 可 写成 c-sum(c,1)*/ 
put c=; 
run; 


3.2.6 RETAIN 语句 


RETAIN 语句 可 以 让 INPUT 语句 或 赋值 语句 创建 的 变量 在 DATA 步 的 隐 性 循环 中 得 
以 保持 ， 避 免 下 次 隐 性 循环 时 被 重新 用 缺失 值 初始 化 。 它 是 声明 性 语句 而 非 执行 性 语句 。 
其 基本 形式 为 : 


RETAIN VARI VALUEl1 VAR2 VALUE2 … VARN VALUEN; 


该 语句 可 将 每 个 变量 初始 化 为 指定 的 值 ， 如 retain a 1 b 2 c 100; 也 可 以 同时 将 多 个 
变量 初始 化 为 某 个 特定 值 ， 如 retain a b c 100。 

RETAIN 语句 还 支持 对 系统 变量 列表 NUMERIC 进行 赋值 ， 它 表示 将 当前 PDV 
中 的 全 部 数值 型 变量 初始 化 为 特定 值 ， 如 RETAIN NUMERIC 100; SAS €Xf$ ALL ~ 
.NUMERIC 和 CHAR 3 个 系统 变量 ， 分 别 表 示 PDV 中 的 全 部 变量 ， 全 部 数值 型 变 
量 或 者 全 部 字符 型 变量 。 

RETAIN 语句 只 可 用 于 除 N_ 和 ERROR 外 的 任何 变量 ， 如 果 一 个 变量 仅仅 出 现 
在 RETAIN 语句 中 从 未 被 赋 过 值 ， 该 变量 默认 不 会 被 输出 到 目标 数据 集中 。RETAIN 语 
句 常用 于 指定 在 DATA 步 隐 性 循环 中 不 要 重新 初始 化 为 缺失 值 的 那些 变量 。 

RETAIN 语句 与 KEEP 语句 不 同 ，KEEP 语句 是 用 来 指定 需要 “保留 ”输出 到 目标 
数据 集中 的 那些 变量 ， 与 之 对 应 的 SAS 语句 是 DROP 语句 ， 表 示 不 要 将 指定 变量 输出 
到 目标 数据 集中 。 

考察 如 下 代码 〈 见 程序 3-25) ， 可 以 对 SASHELPCLASS 的 所 有 年 龄 求 和 ， 其 中 
TOTAL 能 得 到 正确 值 ， 而 TOTAL2 只 有 第 一 个 观测 有 值 ， 其 他 都 是 缺失 值 。 分 析 其 原 
因 是 变量 TOTAL2 在 下 次 隐 性 循环 时 会 被 系统 默认 设置 为 缺失 值 ， 从 而 导致 等 号 左 侧 的 
TOTAL2 也 被 设置 为 缺失 值 。 

程序 3-25 RETRAIN 语 句 范例 


data null ; 
set sashelp.class; 


retain total 0; /* 初 始 化 为 0*/ 
total=total+ Age; 


if N -1 then total2-0;/*total2 首先 会 被 初始 化 为 缺失 值 ， 执 行 到 此 赋 0*/ 
total2-total24Age; /*total2 第 二 次 执行 会 被 初始 化 为 缺失 值 ， 结 果 为 缺失 值 */ 


put N = age= total- total2-; 
run; 
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系统 输出 : 
.N -1 Age-14 total=14 total2-14 
.N -2 Age-13 total-27 total2-. 


.N -19 Age-15 total-253 total2-. 


要 修正 上 面 的 问题 ， 添 加 RETAIN TOTAL? 语句 即 可 。 在 SAS 数据 步 中 ， 某 些 变量 
系统 默认 具有 在 隐 性 循环 之 间 保 持 数值 的 特性 ， 也 就 是 说 它们 并 不 需要 用 RETAIN 语句 
显 式 指 定 就 可 避免 在 下 次 隐 性 循环 开始 时 被 重 置 为 缺失 值 ， 默 认 具 有 “变量 保持 ” 特 
性 的 变量 包括 。 

(1) 累加 求 和 变量 。 

(2) 自动 变量 N . ERROR 以 及 I、CMD 和 _MSG 。 

(3) SET, MERGE, MODIFY 和 UPDATE 语句 中 读 取 的 变量 以 及 这 些 语 句 中 
END= 和 IN= 选项 创建 的 变量 。 

(4) FILE、INFILE 语句 中 使 用 BY= 选项 创建 的 变量 。 

(5) 临时 数组 中 指定 的 数据 元 素 。 

(6) ARRAY 语句 中 初始 化 的 数组 元 素 ， 或 这 些 数组 元 素 的 成 员 。 

在 对 数据 集中 的 观测 进行 遍历 查找 时 ， 我 们 经 常会 用 到 RETAN 语句 。 灵 活 应 用 它 
配合 隐 性 循环 可 完成 一 些 复杂 功能 。 比 如 下 面 的 例子 〈 见 程序 3-26) 查找 sashelp.class 
中 男生 和 女生 的 最 小 身高 值 。 

程序 3-26 ”查找 特定 分 组 内 的 最 小 值 


Proc sort data=sashelp.class out=class sort; 
by sex;/* 按 照 性 别 分 组 */ 
run; 


data class maxmin; 
set class sort; 
by sex; 


retain Shortest; /* 分 别 在 两 组 内 寻找 最 小 值 */ 
if first.sex then Shortest=height; 
Shortest-Shortest >< height;/* 取 较 小 的 一 个 */ 
if last.sex then output; 


keep sex Shortest; 
run; 


proc print data- class maxmin; 
title "Shortest student"; 


run; 
系统 输出 如 图 3-3 所 示 。 
[Ote fex | shores 
EF 51.3 
2M 57.3 


3-3 ”分 组 寻找 极 值 
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SAS 程序 中 表达 式 是 构成 SAS 语句 的 基础 ， 而 SAS 语句 则 是 构成 SAS 程序 的 基础 。 
就 像 人 类 语言 中 表达 思维 的 文本 分 成 段落 、 句 子 一 样 ， 表 达 式 是 SAS 语句 的 一 个 片段 ， 
SAS 语句 才 是 构成 完整 语义 的 最 小 单位 。 良 好 的 表达 式 应 该 变量 命名 清晰 ， 运 算 关 系 明 
确 ， 没 有 歧义 且 易 于 维护 。 


3.3 SAS 数组 


SAS 数组 与 传统 编程 语言 的 数组 的 本 质 不 同 在 于 SAS 数组 并 非 一 种 特殊 的 数据 结 
构 ， 而 是 一 种 变量 的 组 织 引用 方式 。SAS 数组 本 质 上 是 对 SAS 变量 的 分 组 引用 ， 因 为 
SAS 数组 本 身 甚 至 不 是 一 个 变量 ， 只 是 对 一 系列 真正 的 SAS 变量 进行 统一 引用 的 名 称 
而 已 ，DATA 步 中 的 SAS 数组 也 被 称 为 变量 数组 (Variable Array) o 

SAS 数组 使 用 ARRAY 语句 进行 定义 ， 默 认 情 况 下 数组 名 称 、 数 组 长 度 是 必须 的 ， 
其 余部 分 则 是 可 选 的 〈 尖 括号 部 分 ) 。SAS 数组 定义 的 完整 语法 如 下 所 述 。 


ARRAY 数组 名 称 [数组 长 度 ] <$> < 元 素 长 度 > 元 素 变量 列表 < ( 元 素 初始 值 列 表 ) >; 


e 数组 名 称 : 任何 有 效 的 SAS 名 称 ， 最 大 长 度 不 得 超过 32 字 符 。 

e 数组 长 度 : 数组 所 能 包含 的 元 素 个 数 。SAS 数 组 的 最 大 长 度 跟 SAS 数 据 集 能 支持 
的 最 大 列 数 有 关 。 在 SAS 9.1 以 前 的 版 本 中 数据 集 的 最 大 列 数 为 32767， 在 更 高 
版 本 中 则 取决 SAS 所 在 的 运行 环境 和 文件 属性 ， 即 最 大 变量 数 取 决 于 PDV 中 所 有 
变量 所 占用 字 节 长 度 的 总 和 ， 其 总 和 不 得 超过 文件 系统 的 最 大 页 面 大 小 。 笔 者 
在 Windows 平 台 上 成 功 创建 过 400 万 列 的 SAS 数 组 ， 它 对 应 一 个 具有 400 万 列 的 数 
据 表 。 

e 元 素 类 型 : 可 选项 ，$ 表示 数组 元 素 类 型 是 字符 型 ， 否 则 默认 表示 数组 元 素 
为 数值 型 。 

e 元 素 长 度 : 可 选项 ， 数 组 中 元 素 变量 的 长 度 ， 数 组 所 有 变量 共享 相同 长 度 ， 以 
字 节 为 单位 。 

e 元 素 变量 列表 : 构成 数组 的 变量 列表 ， 通 常用 VAR1 - VARN 形 式 定义 。 

e 元 素 初 值 列 表 : 依次 指定 数组 元 素 的 初始 值 ， 以 过 号 或 空格 分 隔 。 

(1) 由 于 SAS 数组 很 灵活 ， 其 最 常见 的 定义 方式 如 下 〈 见 程序 3-27) ， 数 组 元 素 

不 仅 能 够 定义 类 型 ， 也 可 指定 元 素 的 长 度 。 数 组 中 所 有 元 素 拥有 同样 的 长 度 定义 。 比 如 : 


程序 3-27 ”定义 数组 大 小 和 长 度 ， 以 及 数组 元 素 的 变量 长 度 

data null ; 
array array n [3]; /* 定 义 了 一 个 具有 3 个 元 素 的 数组 ， 元 素 类 型 缺 省 为 数值 型 */ 
array array c [3] $; /* 定 义 了 一 个 具有 3 个 元 素 的 数组 ， 元 素 类 型 为 字符 型 */ 
array array cx [3] $ 2; /* 具 有 3 个 元 素 ， 元 素 类 型 为 字符 型 ， 长 度 为 2? 字 节 */ 

run; 


该 代码 分 别 定 义 了 若干 3 个 元 素 的 数值 型 /字符 型 数组 ， 系 统 内 部 会 默认 生成 一 
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系列 名 称 为 ARRAY Nl. ARRAY N2、ARRAY N3 和 ARRAY Cl. ARRAY C2、 
ARRAY C3 的 SAS 变量 ， 这 些 变量 保存 在 PDV 中 ， 因 此 在 SAS DATA 步 中 也 可 以 直接 
用 变量 名 进行 访问 。 数 组 的 初始 化 示例 见 程序 3-28 所 示 : 


程序 3-28 ”数组 的 初始 化 


data null ; 
array array n [3]; 
array n[1]-1; array n[2]-2; array n[3]-3; 


array array c [3] $; 
array c[1]-'a'; array c[2]-'b'; array c[3]-'c'; 


put array nl- array cl-; /* 默认 生成 一 系列 变量 array_n1… 能 正确 工作 */ 


array array cx [3] $ 2;/* 定 义 为 字符 型 ， 元素 字 节 长 度 为 2*/ 
array cx[1]-'ABC'; array cx[2]-'BC'; array cx[3]-'CD'; 
put array cx[1]-; /* 由 于 指定 了 长 度 2，ABC 赋 值 时 发 生 截 断 仅 保留 AB*/ 
run; 
CQ) HF SAS 数组 本 质 上 是 变量 的 组 织 引用 方式 , 因此 它 与 传统 的 C/C++ 语言 不 同 ， 
用 户 可 人 为 指定 数组 所 映射 的 元 素 变量 名 称 序 列 ， 如 varl, var2、var3 。 


array myarray [3] varl-var3;/* 默 认为 nyarray[3] 生 成 变量 var1，var2，var3x/ 


指定 的 数组 长 度 必须 与 所 映射 的 变量 列表 具有 的 相同 的 元 素数 量 ， 否 则 SAS 会 报 与 
如 下 类 似 的 语法 错误 。 

ERROR: 为 数组 myarray 指定 的 维 定义 的 变量 过 多 。 

ERROR: 为 数组 myarray 指定 的 维 定义 的 变量 过 少 。 

如 果 用 户 已 经 在 数组 所 映射 的 变量 列表 中 隐 性 指定 了 元 素 的 个 数 〈 比 VAR1- 
VAR3， 表 示 数 组 长 度 为 3 ) ， 用 户 可 以 不 必 在 中 括号 [ ] 中 指定 数组 长 度 ， 而 是 用 * 号 
代替 或 者 干脆 忽略 整个 中 括号 [*] 部 分 。 如 下 所 示 : 


array myarrayl [*] varl-var3; 
array myarray2 varl-var3; 


注意 : 上 面 两 行 代 码 虽 然 创 建 了 2 个 数组 MYARRAYI 和 MYARRAY2， 但 其 实 它 
们 映射 的 SAS 变量 集 是 一 样 的 。 因 此 在 任何 一 个 数组 中 对 数据 进行 了 改动 ， 实 质 上 都 
是 对 变量 VAR1-VAR3 进行 的 修改 。 这 种 机 制 为 相同 变量 集合 建立 不 同 数组 映射 成 为 
可 能 。 

(0 在 数组 元 素 变量 列表 后 ， 用 户 也 可 以 使 用 小 括号 来 指定 数组 元 素 的 初始 值 ， 
元 素 之 间 使 用 逗号 或 者 空格 隔离 。 注 意 ， 在 C/C++ 语言 中 使 用 大 括号 0 指定 初 值 ， 而 
SAS 使 用 小 括号 O 指定 。 


array myarray[3] $ 4 varl-var3 ('ABCD','BCDE','CDEF'); 


为 了 理解 SAS 数组 的 运行 机 制 ， 可 运行 如 下 代码 〈 见 程序 3-295 来 检查 不 同 引用 
方式 对 变量 值 的 修改 。 
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程序 3-29 ”数组 为 虚 ，PDV 变 量 为 实 

data mydata; 
array myarray[3] $ 4 varl-var3 ('ABCD','BCDE', 'CDEF'); 
varl-"12345"; /* 直 接 修改 变量 */ 
put myarray[1]; 


myarray[1]-"QWER"; /* 修 改 数组 引用 */ 


put varl; 


输出 结果 为 

1234 

QWER 

3.8.1 数组 名 称 


SAS 数组 必须 先 定义 后 使 用 ， 并 且 数 组 只 能 在 当前 DATA 步 内 有 效 ， 由 于 它 所 映射 
的 SAS 变量 属于 特定 DATA 步 的 PDV， 因 此 数组 不 能 跨 DATA 步 使 用 。SAS 数组 命名 
必须 遵循 如 下 规则 : 

e 数组 名 必须 遵循 SAS 变 量 名 命名 规则 ， 最 长 不 得 超过 32 个 字符 。 

e 数组 名 不 得 与 同一 DATA 步 内 的 其 他 任何 已 有 变量 名 冲突 。 

e 数组 名 应 避免 与 SAS 系 统 函 数 /用 户 自 定义 函数 重 名 。 如 果 数 组 名 和 函数 名 重 
名 ,该 名 称 会 优先 被 SAS 当 作 数 组 名 进行 优先 处 理 ， 因 此 SAS 数 组 名 可 以 阻塞 对 
同名 函数 的 调用 。 

e 数组 定义 和 引用 可 以 使 用 方 括号 [ ] ， 小 括号 ( ) 或 大 括号 {}。 虽 然 大 括号 {} 在 
SAS 语 法 中 没有 被 别 的 语法 定义 ， 笔 者 建议 使 用 C/C++ 普 遍 采 用 的 中 括号 [] 方 式 
进行 引用 更 符合 通用 代码 书写 习惯 。 


3.82 ”数组 元 素 变量 列表 


由 于 数组 能 组 织 相 同类 型 的 变量 ， 因 此 在 定义 数组 元 素 变量 列表 时 ， 用 户 可 使 用 系 
统 变量 NUMERIC 8& CHARACTER 将 PDV 中 的 所 有 的 数值 型 或 字符 型 变量 ， 映 射 
到 某 个 数组 中 。 比 如 下 面 的 代码 〈 见 程序 3-30) 可 以 将 SASHELP.CLASS 的 字符 型 变量 
和 数值 型 变量 映射 到 两 个 数组 中 。 


程序 3-30 ”基于 系统 变量 建立 数组 映射 
data null ; 
set sashelp.class; 
array array c CHARACTER ;/*NAME SEX*/ 
array array n NUMERIC ; /*AGE WEIGHT HEIGHT*/ 
put ALL ; 
run; 
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3.8.3 数组 长 度 


数组 长 度 是 指数 组 中 的 元 素 个 数 ， 定 义 时 可 用 整 型 数值 进行 指定 ， 当 长 度 不 确定 或 
未 知 时 ， 也 可 以 使 用 星 号 * 进行 指定 。SAS 数组 长 度 不 支持 使 用 整 型 变量 进行 动态 指定 
GE: 但 可 用 宏 变 量 指定 ， 而 宏 变 量 可 动态 改变 ) 。 
如 前 所 述 SAS 数组 最 大 长 度 不 是 32767， 而 是 取决 于 SAS 运行 环境 的 内 存 配置 。 
笔者 曾 在 个 人 机 环境 上 成 功 创建 2^22-1 个 元 素 ， 即 4194303 列 的 数据 集 ; 在 尝试 2^23-1 
(HI 8388607 约 800 多 万 列 ) 时 系统 仅 报告 内 存 不 足 而 没有 报告 任何 语法 错误 。 也 就 是 
说 SAS 数组 最 大 长 度 只 取决 于 操作 系统 的 在 内 存 管理 方面 的 限制 。 
SAS 系统 函数 DIM 可 返回 数组 特定 维度 的 长 度 ， 如 果 返 回 第 2 个 维度 的 长 度 可 使 
用 DIM2 Ce) 或 DIM (…,2) 函数 ， 以 此 类 推 。 比 如 : 


do i - 1 to DIM(myarray); 
put myarray[i]:; 
end; 


用 户 可 以 自 定义 SAS 数组 的 下 标 区 间 ， 一 般 情况 下 我 们 推荐 使 用 默认 下 标 索 引 ， 除 
非 有 时 为 了 实现 特定 变量 映射 或 算法 需要 而 改变 下 标 区 间 。SAS 数组 下 标 默 认 是 从 1 开 
始 的 ， 其 内 部 映射 的 变量 默认 也 是 从 1 开始 的 。 即 使 我 们 改变 数组 的 索引 范围 ， 在 PDV 
中 的 具体 变量 名 称 也 是 从 1 开始 命名 的 。 运 行 如 下 代码 〈 见 程序 3-310. 可 以 看 到 数组 在 
DATA 步 的 程序 数据 向 量 PDV) 中 的 分 配 情况 : 

程序 3-31 ” 自 定义 数组 下 标 范围 不 影响 PDV 变 量 命名 

data mydata; 

array a [2:4] $ 4 ('ABCD','BCDE',' 'CDEF') ; 


put all; 
run; 


系统 输出 : al-ABCD a2-BCDE a3-CDEF ERROR -0 N -1 


如 果 用 户 希 望 像 C/C++ 那样 使 用 数组 ， 可 自 定 义 下 标的 起 止 〈 见 程序 3-32) , K 
起 始 索引 改 成 0 的 同时 别 忘 了 遍历 时 需要 提供 正确 的 下 标 ， 其 最 大 下 标 应 该 是 数组 长 度 
DIM (MYARRAY) -1 而 不 再 是 DIM (MYARRAY) 。 


程序 3-32 ” 自 定义 数组 下 标的 访问 
data mydata; 
array myarray [0:2] $  ('ABCD','BCDE','CDEF'); 
do i-0 to dim(myarray)-1; /* 自 定义 下 标 区 间 0 到 dim(myarray)-1 */ 
put myarray[i]; 
end; 
run; 


3.84 ERTIES 


在 定义 数组 长 度 时 在 括号 中 除 使 用 常量 、 常 量 区 间或 星 号 * 外 ， 用 户 也 可 以 使 用 小 
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括号 ( ) 方 式 指定 隐 式 下 标 变量 。 此 时 对 该 数组 名 称 的 访问 会 自动 根据 该 下 标 变量 的 取 
值 返回 数组 中 特定 位 置 的 数组 元 素 。 也 只 有 当 数 组 定义 时 指定 了 隐 式 下 标 变量 时 ， 数 组 
才 可 使 用 DO-OVER 循环 语句 进行 数组 遍历 。 隐 式 下 标 变量 必须 使 用 小 括号 O 指定 ， 

不 能 使 用 中 括号 。 而 且 指定 了 隐 式 数组 下 标的 数组 ， 普 通 的 显 式 数组 下 标 访 问 《〈 比 如 
aD 不 可 再 用 。 其 定义 语法 如 下 : 


ARRAY 数组 名 称 ( 隐 式 下 标 变量 名 ) <$> < 元 素 长 度 > 变量 列表 < (初始 值 ) >; 
考察 如 下 代码 〈 见 程序 3-33) : 


程序 3-33” 隐 式 下 标 是 指向 数组 元 素 的 索引 

data null ; 
/* 必 须 使 用 小 括号 指定 i 为 隐 式 下 标 变量 */ 
array myarray (i) $ xl-x3 ('ABCD','BCDE','CDEF'); 
*put myarray[1]-; /* 注 意 : 显 式 下 标 索引 不 再 可 用 */ 


i-2; /* 只 能 使 用 该 变量 i 作为 数组 的 索引 ， 此 时 访问 数组 就 是 隐 式 下 标 所 指向 的 数组 元 素 */ 


put i myarray; 


do i-1 to 3; 
put i myarray 86; 

end; 

put; 

do over myarray; /*DO-OVER 循环 进行 访问 */ 
put i myarray 86; 

end; 

run; 


系统 输出 : 


2 BCDE 
1 ABCD 2 BCDE 3 CDEF 
1 ABCD 2 BCDE 3 CDEF 


这 种 隐 式 数组 下 标 访问 方式 在 很 多 语言 中 已 经 消失 ，SAS 保留 它 是 为 了 向 下 兼容 ， 
以 及 在 需要 浮动 指针 引用 某 个 变量 集 时 才 使 用 。 


3.855 “多维 数组 


如 果 数 组 有 2 个 以 上 的 维度 ， 则 称 之 为 多 维 数组 ， 数 组 的 维度 之 间 使 用 逗号 分 隔 ， 
但 初始 值 的 指定 依然 用 线性 方式 指定 。 其 基本 语法 形式 如 下 : 


ARRAY myarray [数组 长 度 1， 数 组 长 度 2] ; 
ARRAY myarray [数组 长 度 1， 数 组 长 度 2] xl-x4 y4-y4; 


下 面 的 例子 展示 了 SAS 中 二 维 数组 的 定义 和 使 用 《〈 见 程序 3-34) : 


程序 3-34 ”二 维 数组 示例 
data mydata; 
array myarray [2, 4] (1000, 2000, 3000, 4000, 
1500, 2500, 3500, 4500); 
i=l} 
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do while (i«-2); 

jeu 

do while (j«-4); 
put "[" i ", " j "]-" myarray[i,j] 86; 
j=j+1; 

end; 

put ; 

i=itl; 


proc print data=mydata; 
run; 


系统 输出 : 

[1 , 1 ]=1000 [1 , 2 ]=2000 [1 , 3 ]=3000 [1 , 4 ]=4000 

[2 , 1 ]=1500 [2 , 2 ]=2500 [2 , 3 ]=3500 [2 , 4 ]=4500 

实际 上 ， 尽 管 SAS 提供 了 多 维 数组 引用 方式 ， 但 在 DATA 步 的 PDV 中 ，SAS 依然 
是 用 一 维 变量 进行 存储 的 。 即 使 使 用 PROC PRINT ， 系 统 也 只 会 打印 出 构成 数组 的 变量 
名 ， 而 不 是 二 维 排列 的 数组 元 素 ， 如 图 3-4 所 示 。 


Obs myarray1 myarray2 myarray3 myarray4 myarrayS myarray6 myarray7 myarrayB 
1 1000 2000 3000 4000 1500 2500 3500 4500 


图 3-4 数组 在 PDV 中 的 真实 存储 


3.8.6 ”临时 数组 


如 果 在 定义 数组 时 使 用 关键 字 _temporary_ 进行 修饰 ， 则 该 数组 为 临时 数组 ( 见 
程序 3-35) 。 临 时 数组 的 “临时 ”是 指数 组 不 需要 映射 变量 列表 ， 适 用 于 存储 计算 过 程 
的 中 间 结 果 。 临 时 数组 不 能 被 输出 到 目标 SAS 数据 集 ， 也 不 能 用 all 打印 出 来 。 临 时 
数组 和 非 临时 数组 一 样 ， 只 在 当前 DATA 步 执行 期 间 有 效 ， 且 不 能 跨 数 据 步 使 用 。 


程序 3-35 ”临时 数组 示例 
data null ; 


array array n [3] .temporary (0.05 0.08 0.12); 
array array c [3] $ temporary  ('ABCD' 'BCDE' 'CDEF'); 


put array n[2] array c[2] all ; 
run; 


系统 输出 : 


0.08 BCDE ERROR -0 _N -1 


临时 数组 与 非 临 时 数组 行为 几乎 完全 相同 ， 但 临时 数组 元 素 不 能 被 输出 到 SAS 数据 
R, HE DATA 步 循环 时 不 会 被 重 置 为 缺失 值 ， 因 而 具有 自动 保留 特性 。 临 时 数组 元 素 
没有 对 应 的 变量 映射 ， 只 能 通过 临时 数组 名 和 下 标 进行 引用 。 临 时 数组 定义 时 还 必须 显 
示 指 定数 组 元 素 的 个 数 或 者 索引 区 间 ， 且 不 能 使 用 * 号 指定 数组 长 度 。 
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临时 数组 具有 广泛 的 用 途 ， 其 中 之 一 是 可 用 来 简化 多 分 支 结构 ， 如 下 面 的 代码 〈 见 
程序 3-36) 根据 4 个 level 分 别 使 用 不 同 的 利率 进行 计算 。 

程序 3-36 多 分 支 逻 辑 简 化 前 

data null ; 


amount=100; 


input level 86; 


dE level eq 1 then amount = amount * (1 + 0.05); 
else if level eq 2 then amount - amount * (1 * 0.10); 
else if level eq 3 then amount - amount * (1 * 0.15); 
else if level eq 4 then amount - amount * (1 * 0.20); 


put level amount "," Q6; 
datalines; 

1234 

run; 


上 面 的 4 个 分 支 语 句 可 以 通过 如 下 方式 定义 一 个 利率 表 ， 然 后 自动 根据 利率 表 进行 
计算 〈 见 程序 3-37) 。 
程序 3-37 ”利用 临时 数组 简化 多 分 支 逻 辑 


data null ; 
amount-100; 


input level Q6; 
array rate [4] temporary (0.05 0.10 0.15 0.20); 
amount = amount * (1 + rate[level] ); 


put level amount "," Q6; 
datalines; 

1234 

run; 


系统 输出 : 1 105, 2 110,3 115,4 120 


3.3.7 ”数组 排序 


SAS 提供 系统 例 程 SORTN/SORTC 对 数组 进行 排序 ， 其 中 SORTN 用 于 数值 型 变量 
的 排序 ，SORTC 用 于 字符 型 变量 排序 。 在 SAS 中 例 程 (Routine) 就 是 一 个 没有 返回 值 
的 子 函数 ， 调 用 时 须 用 类 似 CALL SORTCC.) 的 格式 。 考 察 如 下 代码 〈 见 程序 3-38) ， 
你 会 发 现 一 旦 调用 排序 代码 ， 数 组 中 的 值 会 按照 指定 顺序 重 排 ， 从 而 引用 同样 位 置 的 数 
组 元 素 将 获得 不 同 的 结果 值 。 

程序 3-38 ”数值 数组 和 字符 串 数组 的 排序 


data null ; 
array array n{3} (0.3 0.1 0.2); 


put "Before: " array n[*] ; 
call sortn( of array n[*] );/* 对 数值 数组 进行 排序 */ 
put " After: " array n[*] ; 


array array cí(3) $ yl-y3 ("BCDE" "ABCD" "CDEF") ; 
put "Before: " array c[*] ; 
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call sortc( of yl-y3);/* 对 字符 数组 进行 排序 */ 


put " After: " array c[*] ; 
run; 
系统 输出 : 


Before: 0.3 0.1 0.2 
After: 0.1 0.2 0.3 
Before: BCDE ABCD CDEF 
After: ABCD BCDE CDEF 


3.3.8 注意 事项 


SAS 数组 与 其 他 计算 机 语言 不 同 ， 程 序 员 在 编程 实践 中 很 容易 发 生 如 下 几 种 类 型 的 
错误 ， 是 SAS 数组 的 独特 行为 所 致 。 

(1) 引用 未 声明 的 数组 错误 : 在 一 个 数据 步 中 试图 对 另 一 个 数据 步 内 定义 的 数组 
执行 运算 时 ， 系 统一 般 会 报告 如 下 编译 错误 。 


ERROR: 引用 了 未 声明 的 数组 : y. 
ERROR: 变量 y 没 有 声明 为 数组 。 


因为 SAS 编译 执行 是 以 步 〈Step) 为 单位 ， 所 以 数组 作为 变量 的 组 织 形式 不 能 够 跨 多 
个 数据 步 。 如 果 需 要 在 多 个 步 之 间 调 用 ， 可 使 用 SAS 宏 变 量 或 中 间 临 时 数据 集 在 步 (Step) 
之 间 进 行 传递 ,用 户 也 可 以 将 不 同步 的 代码 合并 进行 分 析 , 比如 下 面 的 例子 ( 见 程序 3-39); 


程序 3-39 ”企图 跨 数据 步 访问 数组 
data null ; 
array y [3] (100,200,300); 


do i-1 to 3; 
put yli] 8e; 
end; 


data _null_;/* 如 下 代码 试图 对 数组 y 进行 求 和 */ 
sum-0; 
do i-1 to 3; 
sum-sum* y[i]; 
end; 
drop i; 
run; 


第 一 种 解决 方法 是 先 用 数据 集 mydata 传递 数值 ， 然 后 用 SET 语句 对 输入 数据 全 加 
运算 逻辑 来 实现 ( 见 程 序 3-400 ， 输 出 结果 如 图 3-5 所 示 。 


程序 3-40 ”使 用 数据 集 作为 桥梁 实现 跨 数 据 步 访问 
data mydata; 
array y [3] (100,200,300); 


do i-1 to 3; 
put y[i] G6; 
end; 
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drop i; 
run; 


data mydata; 
set mydata; /* 利 用 数据 集 做 桥梁 */ 
array y [3]; 


sum-0; 
do i-1 to 3; 
sum-sumt y[i]; 
end; 
drop i; 
run; 


Obs | yi| y2| y3 | sum| 
1 100 | 200 | 300 | 600 


图 3-5 输出 数据 集 


第 二 种 解决 方法 是 ， 如 果 可 能 ， 则 把 数组 的 运算 逻辑 封装 在 单一 数据 步 内 见 
程序 3-41) 。 


程序 3-41 运算 逻辑 封装 在 单个 数据 步 内 
data mydata; 
array y [3] (100,200,300); 


do i-1 to 3; 
put yl[i] 8e; 
end; 
sum-0; /* 运 算 逻 辑 二 */ 
do i-1 to 3; 
sum-sum* y[i]; 
end; 
drop i; 
run; 


(2) 数组 下 标 越界 错误 : 当 数 组 下 标 不 在 数组 定义 的 合法 下 标 范围 内 时 引发 ， 包 
括 低 于 数组 下 界 或 者 高 于 数组 上 界 ， 有 时 候 是 因为 使 用 DO 循环 条 件 不 当 ， 或 因 错 误 自 
定义 了 数组 下 标 范 围 。 比 如 程序 3-42 只 有 3 个 元 素 却 用 1-4 去 访问 ， 或 者 定义 了 下 标 区 
间 2:4， 结 果 却 用 1-3 去 访问 。 
程序 3-42 ”数组 下 标 越界 示例 


data mydata; 
array y [3] (100,200,300); 


dp cc dg 
do while (i «-4); /* 或 do until (i »4); */ 
put "y[ " i "]- " y[i] e J RETEN 
i-itl; 
end; 
drop i; 
run; 


data mydata; 
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array y [2: 4] (100,200,300); 
LUN (i <=4); 
püt "y[ ® 3 "]- " yfi a 7*38—T 05857 
i-it1; 
end; 
drop i; 
run; 
G) 指定 的 数组 下 标 过 多 错误 : 当 数 组 名 与 函数 名 冲突 时 ，SAS 会 将 该 名 称 之 后 
的 括号 当 作 数组 引用 而 非 函数 引用 进行 处 理 ， 此 时 本 应 该 作为 函数 参数 进行 传递 的 变量 ， 
被 当 作 数 组 下 标 进行 处 理 ， 就 会 引发 各 种 错误 信息 。 修 正 办 法 就 是 正确 对 数组 进行 命名 ， 
避免 与 系统 函数 或 其 他 自 定义 用 户 函数 重 名 。 下 面 的 例子 〈 见 程序 3-43) 本 意 是 调用 
mean 函数 计算 数组 元 素 的 均值 。 
程序 3-43 ”数组 名 与 函数 名 冲突 引发 伪 “ 数 组 下 标 过 多 错误 ” 
data mydata; 
array mean [3] (100,200, 300); 
avg- mean (of meanl-mean3) ;/* ERROR: 为 数组 "mean" 指 定 的 数组 下 标 过 多 */ 
put avg-; 
run; 


正确 的 做 法 是 改变 用 户 数组 mean 的 名 称 ， 避 免 与 系统 函数 mean 重 名 。 
(4) 把 数组 元 素 完全 当 变 量 使 用 :由 于 ARRAY 语句 是 DATA 步 内 的 编译 语句 ， 

数组 元 素 的 引用 方式 不 能 完全 等 同 于 变量 ， 比 如 在 DROP, KEEP 等 语句 中 ， 用 数组 元 素 
引用 方式 会 引发 编译 语法 错误 。 变 通 的 方法 是 使 用 该 数组 元 素 对 应 的 变量 名 。 比 如 下 面 
的 例子 〈 见 程序 3-44) FAH DROP 语句 将 第 一 个 变量 从 输出 变量 列表 中 删除 ， 就 会 引发 
语法 错误 。 正 确 的 做 法 是 用 PDV 中 的 具体 变量 yl 。 

程序 3-44 ”数组 元 素 完全 当 作 变 量 使 用 : 数组 只 是 组 织 方式 ， 只 有 PDV 变 量 才 是 真 的 变量 

EU (100,200,300); 


drop y[1]; /* 应 该 使 用 drop yl; */ 
run; 


数组 操作 是 很 多 复杂 数据 分 析 算法 的 基础 ， 利 用 SAS 数组 可 以 将 传统 编程 语言 中 的 
各 种 算法 在 SAS 实现 ， 从 而 完成 自 定 义 分 析 算 法 的 编程 工作 。SAS 程序 实现 大 规模 数 
据 处 理 可 以 基于 SAS 数组 、SAS 数据 集 以 及 专门 面向 矩阵 运算 的 SAS/IML。 一 般 情 况 下 ， 
涉及 大 量 重复 运算 时 不 要 基于 数据 集 ， 而 应 该 使 用 SAS 数组 这 种 存在 于 PDV 内 存 空 间 
的 语言 元 素来 实现 ， 其 根本 原因 是 SAS 数据 集 操 作 涉 及 数据 持久 化 ， 即 需要 大 量 的 磁盘 
VO 读 写 操作 而 严重 影响 系统 性 能 。 这 是 很 多 学 统计 出 身 的 数据 分 析 人 员 容 易 犯 的 错误 。 


流程 控制 


计算 机 编程 语言 经 过 几 十 年 的 演化 ， 语 法 元 素 基 本 上 都 很 成 熟 。 所 谓语 法 本 质 上 就 
是 关键 字 、 符 号 以 及 它们 如 何 组 合 的 规范 。 各 种 编程 语言 在 数据 类 型 与 结构 、 流 程控 制 、 
实体 引用 与 代码 重用 、 设 计 哲 学 等 方面 大 不 相同 ， 但 它们 在 计算 机 编程 的 语义 上 大 体 相 
同 。 用 户 如 果 洞 悉 了 某 种 计算 机 语言 的 设计 精 钥 ， 则 精通 多 种 计算 机 语言 并 非 难 事 。 各 
种 计算 机 语言 都 有 一 个 重要 的 部 分 也 就 是 执行 流程 控制 ， 本 章 将 主要 讲述 SAS 语言 的 流 
程控 制 有 关内 容 。 

所 有 的 编程 语言 都 支持 代码 自 上 而 下 的 顺序 处 理 ， 这 与 人 类 的 阅读 习惯 和 文件 处 理 
顺序 是 一 致 的 。 在 逻辑 上 ， 顺 序 处 理 、 分 支 控 制 、 循 环 控制 是 实现 计算 机 流程 控制 的 三 
大 核心 构件 ， 任 何 复杂 的 计算 逻辑 都 可 以 由 这 3 种 方式 组 合 而 成 。 现 代 计 算 机 语言 大 都 
会 提供 强大 的 实体 引用 和 代码 重用 技术 , 如 静态 代码 包含 、 宏 蔡 换 、 函数 封装 、 面向 对 象 、 
代码 模板 以 及 泛 型 等 ， 从 而 使 分 解 问题 、 解 决 问题 编写 大 规模 复杂 程序 成 为 可 能 。 顺 序 、 
分 支 和 循环 作为 构成 程序 流程 控制 的 三 大 部 分 ， 其 中 顺序 执行 是 自然 隐 含 的 行为 ， 因 此 
本 章 重 点 探讨 SAS 的 分 支 控制 和 循环 控制 。 


4.1 DO-END 语句 块 


在 讲述 流程 控制 之 前 有 必要 先 讲 DO-END 语句 块 ， 在 SAS 语言 中 ， 我 们 可 利用 DO 
和 END 两 条 语句 将 包含 在 它们 之 间 的 多 条 语句 “封装 ”为 单个 语句 块 ， DO-END 语句 
块 在 语法 上 被 视 为 单条 语句 进行 处 理 。 因 此 它 类 似 于 C/C++ 和 Java 语言 中 的 f} 代码 分 
组 符 。 这 种 分 组 语句 最 常见 的 用 法 是 在 分 支 控 制 和 循环 控制 中 用 来 实现 语句 块 功能 和 代 
WIRE, fH DO-END 语句 块 可 用 在 SAS 数据 步 内 任何 地 方 用 于 控制 SAS 代码 的 分 组 和 
隔离 。 其 基本 语法 为 : 

DO; 


Statement-1; 


Statement-n; 


END; 


DO-END 语句 块 的 简单 演示 如 程序 4-1 所 示 。 


SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


程序 4-1 Do-END 语 句 块 示例 
data null ; 
n-4; 
do; 
put "Hello World"; 
n-n42; 
end; 


if mod(n, 2)-0 then 


4.2 分 支 控制 


4.2.1 IF-THEN 分 支 控制 


分 支 控制 用 于 构造 运行 时 可 能 的 执行 路 径 。 如 果 表 达 式 为 真 ， 则 执行 条 件 为 真 的 语 
名 或 语句 块 ， 和 否则 执行 条 件 为 假 对 应 的 语句 或 语句 块 ， 其 中 条 件 为 假 的 部 分 是 可 选 的 。 
其 基本 语法 如 下 : 


IF exp THEN True-Statement; 
«ELSE False-Statement;» 


在 SAS 语言 中 ， 表 达 式 求 值 结果 可 能 为 缺失 值 、 零 或 者 非 零 值 。 SAS 视 缺失 值 和 
零 为 假 ， 非 零 值 作为 真 。 分 支 控 制 中 ELSE 语句 并 不 是 必须 的 ， 也 就 是 说 可 以 仅 在 表达 
式 为 真 时 作 某 种 处 理 ， 条 件 不 成 立时 可 以 不 处 理 。 下 面 的 例子 ( 见 程序 4-2) 首先 生成 一 
个 满足 正 态 分 布 的 随机 数 ， 如 果 该 随机 数 大 于 等 于 0， 则 设置 isPositive 为 1， 表示 它 是 
一 个 正 数 。 

程序 4-2 ”生成 一 个 正 态 分 布 随机 数 ，IF-THEN 检 测 它 是 否 为 正 数 


data null ; 
x-rand('NORMAL'); 


isPositive-0; 
if x »-0 then isPositive-1; 


put x- isPositive-; 
run; 


上 面 的 例子 也 可 以 改写 为 包含 ELSE 语句 ， 表 示 小 于 等 于 0 的 时 候 将 ispositive 设置 
为 假 。 这 两 个 例子 的 逻辑 是 等 价 的 〈 见 程序 4-3) o 
程序 4-3 IF-THEN-ELSE 双 分 支 控制 


data null ; 
x-rand('NORMAL'); 
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if x »-0 then isPositive-l; 
else isPositive-0; 


put x= isPositive-; 
run; 


输出 : x—-0.518828349 isPositive-0 


如 果 在 IF-THEN 的 处 理 中 需要 执行 多 条 语句 ， 我 们 可 以 使 用 前 面 讲 到 的 DO-END 
语句 块 功能 。DO-END 语句 块 中 可 包含 任何 其 他 SAS W4, REREH DO-END i 
句 块 ， 或 者 贬 套 其 他 分 支 控制 语句 和 循环 控制 语句 组 成 的 语句 块 。 当 IF-THEN 语句 扩 
展 到 DO-END 语句 块 时 ， 其 基本 语法 形式 就 为 : 


IF exp THEN True-Statement; 
«ELSE False-Statement;» 


演变 为 如 下 形式 ， 即 True-Statement 和 False-Statement 都 变 为 DO-END 语句 块 。 


IF exp THEN 
DO; 
True-Statement-l; 


True-Statement-n; 
END; 
«ELSE 

DO; 
False-Statement-1; 


False-Statement-n; 
END;^ 


如 下 代码 利用 SAS 强大 的 随机 数 生成 器 模拟 一 次 抛 硬币 的 过 程 ， 抛 硬币 是 单 次 试验 
RH ORD: 国 微 朝 上 ; 失败 : 国徽 朝 下 ) 发 生 概 率 为 0.5 的 伯 努 利 试验 ， 它 服从 只 有 
两 个 可 能 取 值 的 等 概率 均匀 分 布 〈 见 程序 4-4) o 


程序 4-4 模拟 伯 努 利 试验 
data null ; 
x-rand('BERNOULI', 0.5); 


if x=1 then do; 
isUp-1; 
put "硬币 国 微 朝 上 " isUp=; 
end; 
else do; 
isUp=0; 
put "硬币 国徽 朝 下 " isUp-; 
end; 
run; 


DATA 步 支持 一 个 很 特殊 的 IF 取 子 集 语句 ， 它 表示 在 IF 条 件 满足 时 才 继 续 往 下 处 
理 ， 否 则 返回 DATA 的 开始 处 。 这 个 语句 没有 IF-THEN 语法 结构 而 只 有 IF 表达 式 ， 因 
此 千 万 不 要 将 它 与 这 探讨 的 下 -THEN 条 件 分 支 控制 语句 混为一谈 。IF 取 子 集 语句 的 语 
法 为 下 EXPRESSION. 如 程序 4-5 Bron: 


ENNNNNUII]SASHCRPS. 从 程序 员 到 数据 科学 家 


程序 4-5 IF- 取 子 集 语句 并 非 TF-THEN 分 支 控制 
data myclass; 
set sashelp.class; 
if age>13;/* 仅 当 sashelp.class 中 age>13 才 继 续 执行 */ 
run; 


4.22 ELSE-F 多 分 支 控制 


当 我 们 需要 多 个 分 支 控制 时 ， 可 以 使 用 多 条 ELSE IF 语句 ， 在 语法 等 价 于 在 正 和 
ELSE 语句 之 间 插 入 任意 多 个 ELSE IF 语句 或 语句 块 ， 从 而 实现 多 分 支 控制 。 其 基本 语 
法 如 下 : 

IF exp-1 THEN True-Statement; 

«ELSE IF exp-2 THEN Statement2; > 


«ELSE IF exp-n THEN Statementn; > 
ELSE False-Statement; 


实际 上 ， 这 种 形式 的 多 分 支 控制 等 价 于 在 ELSE HAMER CER DO-END 语句 和 
IF-THEN 语句 实现 ， 只 不 过 是 将 配对 的 DO-END 语句 简化 而 已 ， 上 面 的 代码 等 价 于 如 
下 代码 : 

IF exp-1 THEN True-Staement; 

ELSE 

DO; 

IF exp-2 THEN Statement-2; 
ELSE 
DO; 
IF exp-n THEN Statement-n; 
ELSE False-Statement; 


END; 
END; 


4.23 SELECT-WHEN 多 分 支 控制 


SAS 提供 类 似 于 C/C++ 和 JAVA 语言 的 SWITCH-CASE 多 分 支 控制 语法 ， 且 各 分 支 
语句 默认 是 相互 隔离 〈 即 自 带 break 功能 ) 。 其 基本 语法 如 下 : 


SELECT «(exp-0)»; 
WHEN (exp-1) Statement-1; 


WHEN (exp-n) Statement-n; 
«OTHERWISE Statement-x;» 
END; 


SAS 首先 对 SELECT 语句 中 的 表达 exp-0 求 值 ， 然 后 依次 尝试 匹配 WHEN 语句 
后 的 表达 式 〈 如 exp-1) ， 如 果 两 者 求 值 匹配 则 执行 对 应 WHEN 语句 后 的 语句 (如 
Statement-1) 并 跳出 多 分 支 控制 。 在 C/C++ 和 JAVA 语言 中 ，SWITCH-CASE 分 支 语 
句 是 依次 顺序 执行 ， 只 有 遇 到 人 为 添加 的 break 语句 才 会 跳出 多 分 支 控 制 块 。 SAS 的 
SELECTWHEN 多 分 支 控制 语句 相当 于 自 带 break 功能 。 
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下 面 的 例子 〈 见 程序 4-60 模拟 抛 一 次 麻将 货 子 的 过 程 ， 般 子 的 点 数 服从 离散 均匀 
DA MRF 6 个 面 上 的 数字 被 抛 到 的 概率 是 均等 的 ， 都 是 1/6。 


程序 4-6 ”SELECT-WHEN 多 分 支 控制 
data null ; 
x- ceil(rand("UNIFORM")* 6); 
put "xe" x; 


select(x) ; 
when (1) put "I"; 
when (2) put "I"; 
when (3) put " 
when (4) put "IV" 
when (5) put "V"; 
when (6) put "VI"; 
otherwise put "***"; 

end; 
run; 


如 果 在 SELECT 语句 的 括号 中 指定 了 表达 式 x， 则 WHEN 中 也 必须 是 一 个 或 多 个 
表达 式 ， 只 要 遇 到 SELECT 语句 和 WHEN 语句 中 的 表达 式 求 值 相等 即 执行 该 分 支 并 跳 
出 分 支 控制 。 然 而 ，SELECT 语句 也 可 以 不 指定 表达 式 ， 此 时 分 支 的 执行 完全 依赖 于 
WHEN 语句 后 指定 的 表达 式 求 值 是 否 为 真 , 它 可 用 来 实现 更 加 灵活 的 多 分 支 控制 结构 ( 见 
程序 4-7) 。 


程序 4-7 SELECT-WHEN 多 分 支 控制 的 另 一 种 写法 
data null ; 
x- ceil(rand("UNIFORM")* 6); 
put "x=" x Q0; 
select; /* 千 万 不 要 写成 select (x) ;*/ 
when (x-1, x-2, x-3) put "SMAL1"; 
when (x-4 or x-5 or x-6) put "BIG"; 
otherwise put "IMPOSSIBLE"; 


end; 
run; 


4.3 循环 控制 


SAS 语言 有 强大 的 循环 控制 支持 ， 包 括 指定 次 数 的 循环 〈 即 C/C++ 语言 中 的 FOR 
循环 ) 、 指 定 条 件 的 循环 CDO-WHILE 和 DO-UNTIL) 、 指 定 集合 的 循环 〈 即 某 些 高 级 
语言 的 FOR EACH 循环 ) 三 大 类 。 在 SAS 语言 中 它们 都 统一 由 不 同形 式 的 DO 语句 实现 。 


4.3.1 指定 次 数 的 循环 : DO-TO-BY 


当 循 环 次 数 固定 时 ， 可 以 使 用 定数 循环 ， 如 在 遍历 数据 集 或 者 数组 元 素 时 比较 常 
用 。 其 中 <BY Step> 部 分 是 可 选 的， 循环 步 长 Step 缺 省 为 1。 当 我 们 逆向 循环 时 需要 指 
定 Step 为 -1。 其 基本 语法 为 


ETA SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


DO var-Start-Value TO End-Value «BY Step»; 
Statement or Statement Block; 
END; 


比如 对 于 一 个 一 维 数组 ， 我 们 可 以 用 循环 语句 将 每 一 个 元 素 打 印 出 来 ， 其 中 DIM 
函数 用 于 返回 数组 的 长 度 〈 见 程序 4-8) o 


程序 4-8 一 维 数组 的 遍历 
data null ; 
array myarray [5] temporary (1,2,3,4,5); 
do i-1 to dim(myarray) by 2; /* 打 印 1, 3, 5 */ 
put myarray[i] G6; 
end; 
run; 


系统 输出 如 下 : 135 


4.3.2 ”指定 条 件 的 循环 : DO-WHILE 与 DO-UNTIL 


DO-WHILE 循环 : 当 特 定 条 件 为 真 的 时 候 执行 循环 体 中 的 语句 , 循环 体 执行 结束 后 
再 次 判断 循环 条 件 是 否 为 真 ， 如 果 为 真 则 继续 执行 体 ， 否 则 结束 循环 。 其 基本 语法 为 


DO WHILE (exp); 
Statement or Statement Block; 
END; 


比如 1 到 100 求 和 ， 即 可 使 用 如 下 方法 进行 〈 见 程序 4.9) 。 


程序 4-9 DO-WHILE 示 例 
data null ; 
sum-0; 
nel; 
do while (n<=100); 
sum-sumtn; 
put n- sum-; 
n-ntl; 
end; 
run; 


输出 结果 如 下 : n-l sum=1…n=100 sum-5050 


DO-UNTIL 循环 : 首先 执行 循环 体 ， 直 到 表达 式 为 真 的 时 候 结 束 循 环 。DO-UNTIL 
循环 控制 语句 被 用 于 至 少 需要 执行 一 次 循环 体 的 情况 。 其 基本 语法 如 下 : 
DO UNTIL (exp); 


Statement or Statement Block; 
END; 


比如 DO-UNTIL 的 循环 为 ?大 于 100, 这 时 当 n 等 于 100 时 也 会 执行 循环 体 。 程 序 4-10 
执行 结果 与 程序 4-9 的 输出 完全 等 价 。 
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程序 4-10 DO-UNTIL 示 例 
data null ; 


do until (n>100); 
sum-sumtn; 
put n- sum-; 
n-ntl; 
end; 
run; 


理论 上 ， 任 何 DO-UNTIL 循环 都 可 以 通过 改变 判断 条 件 用 DO-WHILE 循环 实 
现 。 实 际 上 ，SAS 语言 极其 灵活 ， 用 户 甚 至 可 以 将 DO-TO-BY 语句 和 DO-WHILE/DO- 
UNTIL 结合 使 用 ， 这 种 灵活 机 制 在 函数 封装 中 可 补偿 由 于 SAS94M3 及 更 早 版 本 的 
PROC FCMP 不 支持 LEAVE 语句 造成 的 缺憾 。 考 察 如 下 两 段 代 码 〈 见 程序 4-11) ， 它 
们 实现 了 相同 的 循环 控制 逻辑 。 


程序 4-11 DO-TO-BY 结 合 DO-WHILE/DO-UNTIL 语句 
data null ; 
do i-1 to 100 ; 
if i-50 then leave; 
end; 
put i-; /* 输 出 i-50*/ 
run; 


data null; 
do i-i to 100 until (end -1); 
if i-50 then end=1; 
end; 
put i=; 
run; 


4.3.8 ”指定 集合 的 循环 : DO-OVER 


在 编程 中 需要 大 量 处 理 集合 类 型 的 数据 ， 如 数组 、 队 列 和 字典 等 。Java/C# 语言 都 
提供 for each 的 循环 来 遍历 集合 元 素 ， 其 语法 结构 为 


for (type element : set) { statements } 和 foreach(type element in set) { statements }o 


在 SAS 语言 中 则 提供 一 个 特殊 的 DO-OVER 语句 ， 可 用 来 对 用 小 括号 指定 了 隐 式 下 
标 变量 的 数组 进行 元 素 遍 历 〈 见 程序 4-12) o 


程序 4-12 ”DO-OVER 循 环 示例 
data null ; 
array myarray(i) $ xl-x4 ('The','Power','To', "Know"); 


length s $32767; 
gere 
do over myarray; 
put i "-" myarray 80; 
s = trim(s) || " " || myarray; 
end; 
put; 
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put "Merge: " s; 
run; 


系统 输出 结果 为 


1 -The 2 -Power 3 -To 4 -Know 
Merge: The Power To Know 


4.4 特殊 的 流程 控制 语句 


在 C/C++ 和 Java 语言 中 ， 我 们 可 以 用 break 语句 或 continue 语句 在 适当 条 件 下 结束 
循环 或 忽略 后 续 语 句 直 接 进入 下 一 次 循环 的 条 件 判断 。 通 常 break 或 多 分 支 控制 块 ， 可 
用 于 直接 结束 循环 ， 而 continue 语句 表示 不 再 执行 循环 体 中 continue 语句 之 后 的 那 
些 语 句 ， 直 接 跳 到 下 一 次 循环 开始 的 条 件 判断 处 。 这 些 语句 都 是 用 来 控制 执行 流程 
的 特殊 语句 。 


4.4.1 跳出 循环 语句 : LEAVE 


SAS 程序 中 使 用 LEAVE 语句 来 离开 循环 ， 等 价 于 CH Java 中 的 break 语句 。 
LEAVE 语句 可 用 于 DO 循环 块 和 SELECT 多 分 支 语句 块 〈 见 程序 4-13) o 
程序 4-13 ”跳出 循环 LERAVE 


data null ; 
array myarray [5] temporary  (1,2,3,4,5); 


do i-1 to dim(myarray):; 
if (i-3) then leave; 
put myarray[i]-; 
end; 
run; 


输出 : 因为 当 进行 到 第 3 次 循环 时 跳出 循环 体 ， 所 以 它 不 输出 myarray[3]-3 的 情况 。 
4.4.2 ”继续 循环 语句 : CONTINUE 


SAS 程序 中 使 用 CONTINUE 语句 来 忽略 循环 体 中 该 语句 之 后 的 所 有 语句 ， 跳 到 循 
环 开始 处 的 条 件 判断 继续 循环 。 它 等 价 于 C++/JAVA 中 的 CONTINUE. CONTINUE 语 
句 只 能 用 于 DO 循环 中 《〈 见 程序 4-14) o 

程序 4-14 Continue 语句 


data null ; 
array myarray [5] temporary  (1,2,3,4,5); 


do i-1 to dim(myarray): 
if (i-3) then continue; /* 直 接 跳 到 do 继续 下 一 次 循环 处 */ 
put myarray[i]- 86; 
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end; 


run; 
上 面 的 代码 输出 如 下 ， 其 中 i=3 被 忽略 。 
myarray[1]=1 myarray[2]=2 myarray[4]=4 myarray[5]=5 


44.3 ”返回 语句 : RETURN 


SAS 数据 步 的 RETURN 语句 表示 在 当前 点 上 立即 停止 执行 ， 返 回 本 DATA 步 的 开 
始 处 继续 执行 ， 此 时 数据 步 会 将 当前 观测 从 PDV 自动 输出 到 目标 数据 集中 。 但 如 果 当 
前 RETURN 语句 是 从 LINK 语句 跳 入 执行 的 ， 则 RETURN 语句 将 返回 该 LINK 语句 的 
下 一 条 SAS 语句 处 继续 执行 。 实 际 上 ，SAS 数据 步 的 最 后 一 个 语句 执行 后 ， 系 统 会 默 
认 运 行 RETURN 语句 到 数据 步 的 开始 处 继续 下 一 次 隐形 循环 。 下面 的 例子 ( 见 程序 4-15) 
将 过 滤 掉 输入 数据 中 两 个 变量 差 值 的 绝对 值 大 于 10 的 数据 。 

程序 4-15 ”RETURN 语句 

data null ; 


input x y 80; 
if abs (y-x)>10 then return; 


put x- y-; 
datalines; 
10 20 
20 35 
30 40 
40 25 
50 60 


程序 4-15 输出 如 下 所 示 : 

x-10 y-20 

x-30 y-40 

x-50 y-60 

在 PROC FCMP 和 PROC DS2 的 函数 封装 技术 中 ，RETURN 语句 跟 其 他 计算 语言 
的 语义 类 似 ， 用 来 从 函数 封装 中 设置 返回 值 。 而 本 节 探 讨 的 是 DATA 步 中 的 RETURN 
语句 的 行为 。 


44.4 ”中 止 执行 语句 : STOP 与 ABORT 


在 DATA 步 中 ，STOP 语句 可 以 用 来 正常 停止 当前 数据 步 的 执行 ， 并 马上 处 理 下 一 
个 DATA 步 或 PROC 步 。 此 时 ， 执 行 流程 立即 结束 ，PDV 中 已 经 处 理 完 毕 的 观测 也 不 
会 被 输出 到 目标 数据 集中 ，STOP 语句 可 出 现在 DATA 步 中 的 任何 地 方 。 

如 果 SAS 运行 在 Windows 平台 上 ，ABORT 语句 也 可 以 用 来 停止 当前 DATA 步 的 执 
行 ， 区 别 是 ABORT 语句 会 设置 DATA 步 的 系统 变量 ERROR 为 1， 而 STOP 语句 则 不 
会 设置 错误 标志 。 也 就 是 说 ，ABORT 相当 于 人 为 结束 程序 并 引发 错误 在 系统 日 志 写 入 
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错误 信息 ， 这 种 中 止 通常 用 于 检测 到 异常 时 结束 当前 DATA 步 的 执行 ， 比 如 : 
ERROR: ABORT 语句 终止 了 执行 位置: 行 5 列 23, 


另外 ， 当 SAS 在 批 处 理 / 非 交互 模式 下 运行 时 ，ABORT 和 STOP 也 有 不 同 的 行 
为 ， 如 果 要 继续 处 理 后 续 的 DATA 步 和 PROC 步 ， 需 要 使 用 STOP 语句 。 最 常见 的 一 个 
用 途 是 把 STOP 语句 放 在 程序 的 最 后 面 ， 以 防止 对 某 个 外 部 数据 的 随机 访问 发 生 挂 起 。 
比如 下 面 的 程序 〈 见 程序 4-16) 用 于 从 系统 数据 集 sashelp.class 中 等 距 抽 样 4 条 数据 到 
myclass 中 ， 规 则 是 每 5 行 抽取 1 行 ， 输 出 结果 如 图 4-1 所 示 。 

程序 4-16 ”随机 访问 数据 的 最 后 需要 sTOP 语句 防止 发 生死 循环 。 

data myclass; 

do i-1 to count by 5; 


set sashelp.class point-i nobs-count; 
output; 


proc print; run; 


执行 上 面 的 代码 将 对 SASHELP.CLASS 抽样 产生 一 个 小 样本 〈 见 图 4-1 右 表 ) 。 此 
时 如 果 没 有 STOP 语句 可 能 导致 程序 不 返回 的 情况 发 生 。 


Obs Name Sex Ase Height Weight Obs Name Sex Are Height Weight 
1 ARARE B 14 690 1125 1 MASES A 14 690 1125 
DEL X 13 565 / 840 2 eSF R 12 53) 830 
3 gan X 13 663 980 3 PPK X nmo 6.3) $05 
4 98 女 14 628 1025 | 4| 罗 伯 特 男 12 648 128.0 
5*8 A | 14 635 1025 
6 esm A | 12 57.3 830 
7% X | 12 598 845 
8 "fs — x 15 625 1125 
9559» B 13 625 840 
10 的 验 A 12 590 995 
nizew x no 5.3 505 
12 ig X | 14 6&3 9.0 
13 30k X 12 563 710 
DE 女 | 15 6655 1120 
15/384 R 16 720 1500 
16 罗伯特 A | 12 68 128.0 
17 | 罗 纺 德 5 15 6710 133.0 
18 托 3 斯 男 n 55 850 
19 xx A 15 / 665 1120 


图 4-1 随机 访问 实现 等 距 抽 样 


4.4.5” 跳 转 语句 : GOTO 与 LINK 


虽然 很 多 现代 编程 语言 已 经 抛弃 了 GOTO 语句 ， 但 我 们 不 能 否认 GOTO 语句 是 个 
万 能 的 恶魔 。GOTO 语句 可 以 让 SAS 程序 执行 立即 跳 到 本 DATA 步 内 的 指定 标签 处 。 


第 4 章 流程 控制 U 


在 任何 一 个 SAS 语句 前 面 都 可 定义 一 个 标签 ， 表 示 特 定语 句 的 执行 入 口 。 如 果 跳 转 的 标 
签 后 是 一 个 RETURN 语句 ， 则 执行 将 返回 DATA 步 的 开始 处 。 在 SAS 语言 中 ，GOTO 
也 并 非 毫 无 原则 ， 它 只 允许 在 同一 DATA 步 的 程序 空间 内 跳 转 ， 究 其 原因 是 SAS 代码 
以 步 为 单元 编译 执行 。GOTO 语句 的 基本 语法 为 


GO TO label; 


SAS 的 GOTO 语句 中 间 是 带 空格 的 ， 但 推荐 使 用 它 不 带 空格 的 别名 形式 GOTO， 与 
别 的 计算 机 语言 一 样 。 


GOTO label; 
考察 如 下 代码 的 执行 〈 见 程序 4-17) o 


程序 4-17 万 能 的 6oTO 在 DATA 步 内 自由 跳 转 
data null ; 
array myarray [5] temporary  (1,2,3,4,5); 
do i-1 to dim(myarray):; 
put myarray[i]-; 
goto mylabel; 
end; 
mylabel: 
put "Go to here"; 
run; 


系统 输出 如 下 : 
myarray[1]-1 
Go to here 


程序 4-17 说 明 GOTO 语句 从 循环 体 中 跳 转 到 标签 MYLABEL 处 ， 随 后 结束 当前 
DATA 步 的 执行 。 理 论 上 GOTO 语句 可 实现 任意 流程 控制 ,如 下 面 的 代码 〈 见 程序 4-18) 
FH IF 语句 和 GOTO 语句 实现 循环 控制 结构 : 
程序 4-18 IF-THEN 和 GOTO 语 句 实现 循环 控制 结构 
data null ; 
i=l 
loop: 
put i= @@; 
i=i+1; 
if i<5 then goto loop; 


系统 输出 为 i=1 二 2 i=3 i=4 


SAS 语言 中 还 有 一 个 比 无 条 件 跳 转 语句 GOTO 弱 一 点 的 流程 跳 转 语句 LINK, € 
的 功能 类 似 GOTO， 两 者 的 区 别 是 后 面 遇 到 RETURN 语句 的 行为 有 所 不 同 。SAS 数 
据 步 的 LINK 语句 通常 用 于 实现 扁平 模式 下 的 函数 封装 ， 对 此 将 在 函数 封装 一 节 详 细 
讲述 。 

SAS 语言 不 但 提供 现代 编程 语言 都 有 的 流程 控制 机 制 ， 同 时 也 保留 了 很 多 从 SAS 
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语言 定义 之 初 就 有 的 语言 元 素 。 应 用 这 些 流程 控制 机 制 ， 程 序 员 就 可 灵活 地 写 出 各 种 各 
样 数 据 处 理 程序 。 通 过 数据 分 析 行 业 几 十 年 的 实践 证 明 ， 完 成 同样 数据 处 理 功能 的 SAS 
程序 远 比 Java/C++ 程序 简洁 而 高 效 。 况 且 连 万 能 的 GOTO 语句 至 今 SAS 都 保留 着 ， 还 
有 什么 程序 控制 是 不 能 实现 的 ? 当然 ， 程 序 除 了 流程 ， 还 需要 代码 封装 和 复 用 ， 对 这 些 
将 在 后 续 章 节 进 行 讲 述 。 


函数 封装 


计算 机 编程 语言 用 来 告诉 计算 机 做 什么 以 及 如 何 做。 编程 思想 的 发 展 史 就 是 人 类 不 
断 总 结 如 何 控制 机 器 ， 实 现 丰 富 多 彩 程序 世界 的 历史 。 在 计算 机 发 展 的 早期 阶段 ， 编 程 
技术 既 没 有 我 们 现在 熟知 的 结构 化 思想 ， 也 没有 函数 封装 概念 , 更 没有 面向 对 象 和 泛 型 ; 
所 有 可 用 的 编程 元 素 就 是 现在 汇编 语言 中 大 家 能 看 到 的 那些 指令 集 ， 那 时 的 编程 几乎 就 
是 告诉 计算 机 CPU 如 何 加 载 数据 和 指令 ， 如 何 与 寄存 器 打交道 ， 执 行 以 及 跳 转 等 。 

后 来 结构 化 编程 思想 日 趋 成 熟 ， 面 向 过 程 的 编程 技术 开始 兴起 ， 过 程 和 函数 封装 的 
概念 才 开 始 流行 起 来 。 如 今 函 数 仍然 是 我 们 封装 计算 逻辑 的 基本 形式 。 函 数 定义 由 函数 
名 称 、 参 数列 表 、 基 于 参数 和 变量 作用 域 的 计算 逻辑 以 及 函数 返回 值 构 成 。 在 计算 机 内 
存 中 ， 一 个 操作 系统 可 以 调度 的 进程 在 内 存 分 配 上 包含 代码 段 和 数据 段 ， 数 据 段 之 上 是 
由 函数 编译 形成 的 代码 堆 ， 顶 部 则 是 堆栈 ， 该 堆栈 中 每 一 个 栈 帧 代表 一 次 函数 调用 ， 包 
括 上 一 栈 帧 的 地 址 、 输 入 参数 、 返 回 值 及 返回 地 址 等 信息 。 虽 然 很 多 程序 员 已 经 不 再 探 
求 函 数 编译 和 调用 的 细节 ， 但 作为 SAS 数据 科学 家 还 是 需要 深刻 理解 这 一 点 ， 才 能 掌握 
SAS 编程 的 精髓 。 首 先 我 们 回顾 一 下 在 计算 机 语言 发 展 的 早期 是 如 何 实现 函数 封装 这 一 
概念 的 ? 这 可 以 从 程序 设计 中 万 能 的 GOTO 语句 之 命运 开始 说 起 。 

GOTO 语句 的 作用 非常 简单 ， 就 是 将 程序 执行 跳 转 到 指定 语句 。 然 而 ， 结 构 化 程 
序 设 计 之 父 Edsger Wybe Dijkstra 在 1968 年 的 论文 “Go To Statement Considered Harmful" 
中 指出 : GOTO 语句 会 使 分 析 和 验证 程序 正确 性 (尤其 是 循环 控制 ) 的 任务 变 得 复杂 ， 
认为 不 加 限制 地 使 用 GOTO 语句 应 当 从 高 级 语言 中 废止 。 而 另外 ， 经 典 巨 著 The Art 
of Computer Programming 的 作 者 Knuth Donald Ervin 在 1974 年 的 i& XC "Structured 
Programming with go to Statement” 里 分 析 了 许多 常见 的 编程 任务 ， 认 为 其 中 一 些 使 用 
GOTO 语句 能 得 到 最 理想 的 程序 结构 ， 有 控制 地 使 用 一 些 GOTO 语句 是 必要 的 。 这 就 是 
计算 机 编程 历史 上 著名 的 GOTO 语句 之 争 。 

我 们 这 个 时 代 最 伟大 的 两 位 计算 机 科学 家 尚且 对 GOTO 语句 存在 合理 性 的 看 法 不 
同 ， 我 们 就 不 必 进 一 步 探讨 其 存亡 的 合理 性 ， 而 应 该 关注 如 何 合理 使 用 它 。 现 实情 况 是 
C/C++ 语言 到 目前 为 止 仍然 保留 了 GOTO 语句 ， 而 Java 语言 虽然 不 支持 GOTO 语句 却 
保留 了 GOTO 关键 字 ，C# 语言 则 坚定 支持 GOTO 语句 。 尽 管 我 们 已 经 迈 入 了 面向 对 象 
和 泛 型 的 高 级 编程 时 代 ， 但 GOTO 语句 在 跳出 多 重 循环 ， 处 理 运行 异常 等 资源 清理 方面 
极其 简洁 高 效 。 据 统计 ，Linux-2.6.21 内 核 代码 中 就 使 用 了 超过 20333 个 GOTO 语句 。 
在 某 种 意义 上 ，GOTO 语句 是 计算 机 汇编 语言 时 代 IMP 指令 在 高 级 语言 中 的 残留 ， 而 高 
级 计算 机 语言 分 支 循环 控制 中 普遍 存在 的 BREAK 和 CONTINUE 语句 在 本 质 上 也 是 一 
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种 受 限 的 GOTO 语句 。 
SAS 语言 至 今 仍 然 依然 保留 了 GOTO 语句 。 下 面 的 例子 〈 见 程序 5-1) 展示 GOTO 
语句 的 一 个 经 典 使 用 场景 一 一 在 多 层 嵌 套 循环 中 跳出 循环 体 。 


程序 5-1 (Acoro 语句 从 多 层 循环 中 跳出 
data null ; 
do x-1 to 10; 
do y-1 to 10; 
do z-1 to 10; 
if (x*y*z-125) then goto exit; 
end; 
end; 
end; 
return; 
exit: 
put x- y- z- 'EXIT LOOP AT x*y*z-125'; 
run; 


如 果 不 用 GOTO 语句 ， 等 价 的 实现 代码 如 下 《〈 见 程序 5-20 ， 但 它 用 了 GOTO 语句 
的 变 体 LEAVE 语句 。 


程序 5-2 ”使 用 LEAVE 语句 从 多 层 循环 中 跳出 
data null ; 
found-0; 
do x-1 to 10; 
do y-1 to 10; 
do z-1 to 10; 
if (x*y*z-125) then found-1; 
if found-1 then leave; 
end; 
if found-1 then leave; 
end; 
if found-1 then leave; 
end; 
if found-1 then do; 
put x- y- z- 'EXIT LOOP AT x*y*z-125'; 
end; 
run; 


或 者 使 用 RETURN 语句 实现 跳出 循环 〈 见 程序 5-3) 。 


程序 5-3 ”使 用 RETURN 语句 从 多 层 循 环 中 跳出 
data null ; 
found-0; 
do x-1 to 10; 
do y-1 to 10; 
do z-1 to 10; 
if (x*y*z-125) then do; 
put x- y- z- 'EXIT LOOP AT x*y*z-125'; 
return; 
end; 
end; 
end; 
end; 
run; 


GOTO 语句 是 无 条 件 地 执行 跳 转 语句 ， 理 论 上 它 可 实现 任何 计算 逻辑 结构 。 在 SAS 语 
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*i DATA 步 内 实现 原生 的 函数 封装 逻辑 ， 需 要 用 到 GOTO 语句 的 一 个 变 体 LINK 语句 来 实 
现 。 理 解 它 将 对 我 们 在 SAS 语言 中 实现 复杂 逻辑 ， 理 解 编程 语言 底层 运行 机 制 很 有 帮助 。 


5.1 LINK-RETURN 技术 


LINK 语句 是 一 种 特殊 的 执行 跳 转 语句 ， 它 可 以 将 程序 执行 马上 跳 转 到 同一 DATA 
步 内 所 指定 的 标签 处 ， 如 果 后 续 执行 中 遇 到 了 RETURN 语句 ， 执 行 会 跳 转 回 该 LINK i 
名 后 的 下 一 条 语句 继续 执行 。LINK 语句 默认 最 多 可 贬 套 10 层 ， 用 户 可 以 通过 DATA 语 
名 的 /STACK 选项 来 改变 嵌 套 的 LINK 语句 层 数 。 

程序 5-4 展示 了 LINK 和 GOTO 语句 的 区 别 : 左边 的 编译 结果 运行 4 个 语句 ， 而 
右边 只 运行 2 个 语句 ， 左 侧 的 RETURN 语句 返回 LINK 语句 的 下 一 条 语句 ， 而 右 侧 的 
RETURN 语句 返回 DATA 步 的 开始 处 。 

程序 5-4 LINK 语 句 与 GorO 语句 的 对 比 


data null; 
put "Statementl"; 


data null; 
put "Statementl"; 


link labell; 


put "Statement2"; 


labell: 


put "statement3"; 


return; 


put "statement4"; 


run; 


goto labell; 


put "Statement2"; 


labell: 


put "statement3"; 


return; 


put "statement4"; 


run; 


LINK 语句 与 GOTO 语句 的 区 别 是 后 面 RETURN 语句 的 行为 〈 见 图 5-1) o 
LINK /abel; 


语句 1 语句 1 
语句 3 GOTO ”LABLE1 | 语句 3 
语 名 2 
语句 3 

LABELI: 语句 3 


RETURN 
语句 4 


图 5-1 LINK 语句 与 GOTO 语句 


?4 LINK 语句 跳 转 执行 后 遇 到 一 个 RETURN 语句 时 ， 执 行 会 跳 转 到 编译 结果 中 该 LINK 
语句 的 下 一 条 语句 或 语句 块 继续 执行 。 而 GOTO 语句 跳 转 后 遇 到 的 RETURN 语句 则 返回 
DATA 步 的 开始 处 。 如 果 GOTO 语句 后 面 又 有 LINK 语句 ， 则 该 LINK 后 的 第 一 个 RETURN 
语句 会 跳 转 到 该 LINK 语句 的 下 一 条 语句 ， 再 后 面 遇 到 的 RETURN 语句 才 会 跳 转 到 DATA. 
步 的 开始 处 。LINK 语句 通常 跟着 显 式 的 RETURN, TE GOTO 语句 时 通常 不 需要 一 个 
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RETURN 语句 。 当 然 ， 程 序 员 有 义务 控制 执行 逻辑 以 防止 死 循 环 。 其 基本 语法 如 下 所 述 。 

下 面 举 一 个 完整 的 例子 来 说 明 如 何 使 用 LINK-RETURN 实现 DATA 步 原 生 风格 的 函 
数 封装 功能 ， 通 常 这 种 技巧 被 称 为 伪 函 数 封装 技术 。 下 面 的 代码 〈 见 图 5-2) 实现 了 加 
法 和 减法 功能 ， 结 果 放 入 变量 z 。 


程序 5-5 LINK 语句 实现 伪 函 数 封装 技术 


data test; 
x=1; y-2; 
link func add;  /* 调 用 函数 func add*/ 
output; /* 将 运算 过 程 x y z 都 输出 到 数据 集 test 中 */ 
put x- y- z-; /* 打 印 结果 到 日 志 中 */ 
x-3; y-4; 
link func sub;  ”/* 调 用 函数 func sub*/ 
output; 


put x- y- z-; 


return; /* 返 回 DATA 步 的 开始 处 ， 防 止 func_add 被 自动 执行 */ 
func add: 
z-xty; /* 执 行 加 法 运算 z-xty*/ 
return; /* 返 回 跳 入 此 处 的 那个 LINK 语句 的 下 一 条 语句 */ 
func_sub: 
z-x-y; /* 执 行 减法 运算 z-x-y*/ 
return; 
run; 
proc print data-test; run; 
输出 结果 如 图 5-2 所 示 。 
(em 
? Obs x y z ] 
1|1j2| 3 ] 
al 2|a|4|-| i 
£ 1 


We 


图 5-2 ”加 法 与 减法 输出 结果 


对 一 系列 数据 输入 执行 加 法 运算 ， 也 可 以 用 同样 的 原理 实现 。 演 示 代 码 如 程序 5-6 
所 示 : 


程序 5-6 LINK 语句 结合 INPUT 语句 实现 连续 调用 
data test; 
input x y; 


LINK func add; 

output; 

put x- y- z-; 

return; /* 返 回 DATA 步 的 开始 处 */ 


func add: 
z-xty: 
return; /* 返 回 跳 入 此 处 的 那个 LINK 语句 的 下 一 条 语句 */ 


cards; 
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a2 

34 

funy 

proc print data-test; run; 

系统 输出 如 图 5-3 所 示 。 
C7 
15g 
t 1/123 i 
FI 2la|4|[7] j 
CERT 


NR 


5-3 ”加 法 运算 结果 


如 果 要 对 这 种 LINK-RETURN 封装 的 伪 函 数 实现 递归 调用 功能 ， 需 要 将 形式 参数 和 
实际 参数 分 离 , 并 且 要 在 DATA 步 中 实现 “堆栈 ”数据 结构 ， 才 能 最 终 实现 这 一 机 制 〈 参 
见 第 13 章 内 容 ) 。LINK-RETURN 封装 技术 理论 上 可 实现 非常 复杂 的 执行 控制 ， 但 要 
求 有 较 高 的 编程 技巧 。 


5.2 SAS ÄRR 


SAS 语言 中 SAS 宏 也 可 以 用 来 封装 函数 。 实 际 上 很 多 时 候 SAS 程序 员 已 经 在 滥用 
这 种 宏 函 数 封装 技巧 。 考 察 如 下 SAS 代码 〈 见 程序 5-7) ， 看 如 何在 DATA 步 中 将 计算 
逻辑 z=x+y 以 SAS 宏 函 数 方式 实现 。 


程序 5-7 计算 逻辑 封装 之 前 
data mydata; 
input x y; 
z-x + y; /* 待 封装 的 计算 逻辑 */ 
cards; 
122 
34 
run; 
proc print data-mydata; run; 
首先 利用 SAS 宏 将 计算 逻辑 z=x+y 进行 剥离 并 封装 ， 这 样 就 可 以 在 多 个 数据 集中 
重复 调用 该 宏 函 数 〈 见 程序 5-8) 。 
程序 5-8 ”计算 逻辑 封装 为 Sas 宏 
&macro func add( argl, arg2, arg3); 


&arg3- &argl + &arg2; 
5mend; 


data mydata; 
input x y; 
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%func_add (x,y,2); 


cards; 


run; 
Proc print; run; 


程序 输出 结果 如 图 5-4 所 示 。 


REO Wd) WAV IB OD ENAU RAARO EDO AN 
区 EJF TE TV 


LIN: pm 
H bd arz3- barel + kare? | 
BHG Priati sas 系 境 


Edata nrdata; input x y; 
Xfunc. eda(z, y, 2) 
aras; 


图 5-4 宏 函 数 实现 加 法 运算 


除了 上 面 在 变量 级 别 进行 宏 函 数 封装 以 外 ， 也 可 以 在 数据 集 的 层面 上 进行 SAS 宏 函 数 
封装 。 此 时 甚至 不 必 在 SAS 数据 步 内 进行 调用 ， 在 数据 步 外 面 进行 控制 即 可 〈 见 程序 5-9) 。 


程序 5-9 将 整个 DATA 步 封装 为 SAS 宏 
%macro func add( argl, arg2, arg3,ds, ds2); 
Sif &ds = $then $do ; 


$1et ds-&SYSLAST; /* 默 认 使 用 最 近 使 用 的 数据 集 */ 
Send; 


Sif &ds2 = $then $do ; 


$1et ds2-&ds; /* 默 认输 出 结果 到 原来 的 数据 集 */ 
Send; 


data &ds2; 
set &ds; 
&arg3- &argl + &arg2; 
run; 
Smend; 


data mydata; 


*func add(x,y,z): /* 未 指定 输出 数据 集 时 ， 直 接 将 结果 写 入 源 数据 集 */ 


Proc print; run; 


LERSEEEEI0 


如 果 有 另 一 个 数据 集 mydata2， 包 含 变量 a 和 b， 对 它 的 变量 进行 计算 ， 并 将 
结果 输出 到 mydata3 中 ， 指 定 输入 数据 集 参数 ds 和 输出 数据 集 参 数 ds2 BUT CH 
程序 -10》 。 

程序 5-10 ”参数 化 调用 Sas 宏 函数 

data mydata?2; 

input a b; 

cards; 

56 

78 

$func add(a,b,c,mydata2,mydata3); /* 指 定 输入 数据 集 和 输出 数据 集 */ 

Proc print; run; 

SAS 宏 非 常 强 大 ，SAS 程序 员 掌 握 这 些 封装 技巧 对 于 写 出 规范 的 SAS 代码 极其 重 
要 。 需 要 强调 的 一 点 是 ， 任 何 形式 的 SAS 宏 函 数 封装 ， 展 开 后 的 SAS 代码 必须 符合 
SAS 语言 规范 ， 否 则 可 能 出 现 各 种 错误 。 很 多 SAS 程序 员 常 犯 的 一 个 错误 是 ， 在 一 个 
数据 步 内 调用 另 一 个 宏 函 数 ， 而 该 宏 函 数 展开 实际 已 经 包含 一 个 完整 的 数据 步 语 句 ， 则 
SAS 编译 器 会 因为 两 个 数据 步 语 句 嵌 套 不 符合 语法 而 报 语法 错误 。 


5.3 FCMP m? 


从 SAS 9.1 版 本 开始 ，SAS 提供 过 程 步 PROC FCMP 专门 用 于 函数 封装 。 正 如 其 名 
字 FCMP (Function Compiler) 所 揭示 的 ，PROC FCMP 用 来 专门 编译 用 户 自 定义 函数 、 
CALL 例 程 以 及 用 户 自 定义 函数 库 。PROC FCMP 封装 的 函数 可 在 数据 步 内 自由 调用 ， 
具有 非常 好 的 通用 性 。 虽 然 某 些 过 程 步 如 PROC IML 也 提供 函数 封装 功能 ， 但 其 作用 范 
围 较为 有 限 。 由 于 PROC FCMP 封装 的 函数 与 SAS 系统 函数 在 作用 范围 和 调用 方式 上 最 
为 相似 ， 因 此 它 是 SAS 中 封装 函数 的 主要 手段 。 
首先 ， 使 用 PROC FCMP 过 程 步 定 义 的 函数 ， 编 译 后 输出 一 个 包含 指令 序列 的 SAS 
数据 集 格 式 的 文件 。 单 个 SAS 函数 库 可 以 包含 多 个 函数 包 (Package) ， 而 每 个 函数 包 
则 可 以 包含 若干 函数 (Function) 。 因 此 ，PROC FCMP 的 outlib 参数 采用 3 级 名 称 体系 : 
libname.dataset.package。 函 数 编译 结果 默认 是 以 明文 形式 存储 的 ， 如 果 需 要 隐藏 存在 于 
VALUE 列 中 的 明文 代码 ， 用 户 需 要 启用 该 过 程 步 的 HIDE 选项 来 保护 自 定义 函数 实现 。 
下 面 是 用 FCMP 封装 的 加 法 和 乘法 函数 示例 〈 见 程序 5-11) 。 
程序 5-11 FCMP 函数 示例 
/* 利 用 PROC FCMP 来 定义 函数 逻辑 ， 输 出 到 work.funcs 数据 集 的 math 包 中 */ 
proc fcmp outlib-work.funcs.math; 
function add(argl, arg2); /* 封 装 加 法 计算 逻辑 */ 
ret-argl*arg2; 
return (ret); 


endsub; 
function multiply(argl, arg2); /* 封 装 乘法 计算 逻辑 */ 
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ret-argl*arg2; 
return (ret); 
endsub; 
run; 


生成 的 FCMP 数据 集 (如 work.funcs). 也 可 使 用 listfuncs 选项 来 查看 函数 定义 的 原 
型 或 签名 ， 其 信息 包括 函数 名 称 、 类 型 、 返 回 值 类 型 、 参 数 序列 等 〈 见 程序 S-12) o 


程序 5-12 ”查看 rcMP 函数 包 的 方法 / 例 程 的 签名 信息 
proc fcmp inlib-work.funcs listfuncs ; 
run; 


系统 输出 如 图 5-5 所 示 。 


FCMP Function/Subroutine Listing 


Name Type Returns Prototype 
multiply FCMP Function Num multiplyC argl, arg2 ); 
add FOMP Function Num add( argi, arg2); 


图 5-5 FCMP 函数 或 例 程 函数 原型 


也 可 以 直接 查看 该 数据 集 的 详细 内 容 《〈 见 图 5-6) 。 多 个 FCMP 过 程 步 可 以 输出 同 
名 的 函数 到 同一 数据 集 的 不 同 函数 包 。 


Obs Key. Owner Sequence | Type Subtype Name | Continue NValue | Encoded Value 
1 | MATH CMP 0 | Header Package 0 1830961567.2270 
2|F.MATH.MULTIPLY CMP 0 Prototype FCmp math o 001288000081920006432000081920006432 
3| FMATHMULTIPLY CMP 1 Header Function [] 1830961567 2270 
4 F MATH MULTIPLY CMP 2| Statement Source Executabie FUNCTION 0 65 function muttipy(arg1. arg2): 
5| FMATHMULTIPLY | CMP 3 Statement Source Comment CMT o m raamita 
6 | F MATHMULTIPLY CMP 4 Statement Source Executable ASSIGN 0 1 retzarg*arg2- 
7 |F MATH.MLLTIPLY CMP 5 Statement Source Executable RETURN 0 1 retumiret); 
8 | F.MATH.MULTIPLY CMP 6 Statement Source Executable ENDSUB o m endsub; 
9 FMATHADD CMP 7 | Prototype FCmp math 0 001288000081920006432000081920006432 
10 FMATHADD — CMP 8| Header Funcion o 1830961567.2270 
11 FMATHADD | omP 9 | Statement Source Executable FUNCTION o 5 function addlamg1. arg2); 
I2|FMATHADO omP 10| Statement Source Comment CMT 9| mw raamita 
13 FMATHADD | cvP 11 | Statement source Executabie ASSIGN 0 1 retsarg! «arg?: 
34|FMATHADO MP 12 | Statement Source Executable RETURN a 1 retumiret) 
15 | F.MATHADD CMP 13 Statement Source Executable ENDSUB. o 14 endsub; 


图 5-6 编译 后 的 代码 表现 为 数据 集 


一 旦 编译 生成 SAS 数据 集 ， 就 可 以 在 任何 需要 该 计算 逻辑 的 地 方 引 用 这 个 函数 。 
SAS 系统 选项 cmplib (BI Compilation Library) 用 于 指定 SAS 程序 需要 引用 的 一 个 或 多 
个 由 函数 库 组 成 的 SAS 数据 集 。 下 面 的 代码 〈 见 程序 5-132 对 输入 数据 的 前 两 列 x 和 y 
用 加 法 生成 z 列 ， 后 两 列 a 和 b 用 乘法 生成 c 列 OLE 5-7) 。 


程序 5-13 ”调用 编译 好 的 FcMP 函数 
options cmplib=work.funcs; 


data mydata; 
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input x y a b; 
z-add(x,y); /* 使 用 我 们 自己 定义 的 加 法 函数 */ 
c-multiply(a,b); /* 使 用 我 们 自己 定义 的 乘法 函数 */ 
cards; 
1256 
3478 
run; 
proc print data-mydata;run; 
Obs x y abz c 
1|1/[2/|5|6/|3/|30 
2.34787 56 


5-5 ”使 用 编译 好 的 FCMP 函数 


FCMP 函数 默认 只 能 有 一 个 返回 值 ， 当 需要 有 多 个 返回 值 时 ， 可 以 使 用 多 个 outargs 
语句 来 指定 需要 返回 的 参数 ， 从 而 实现 单个 函数 中 返回 多 个 返回 值 。 当 然 ， 也 可 以 使 用 
outargs 语句 来 指定 返回 数组 参数 。 程 序 5-14 对 一 个 给 定 的 输入 值 ， 按 照 黄金 分 割 比例 
分 割 为 两 个 数值 retl 和 ret2 返回 。outargs 语句 修饰 函数 参数 机 制 为 从 SAS 函数 中 返回 
多 个 数值 成 为 可 能 。 


程序 5-14 从 FcMP 函数 返回 多 个 返回 值 
/* 按 照 黄金 分 割 比 例 分 割 arg1 为 ret1，ret2， 其 中 两 者 的 比例 接近 于 0 .618*/ 
proc fcmp outlib=work.funcs.math; 
function decomposite( argl, retl, ret2); 
outargs retl; 
outargs ret2; 


theta-(1 + sqrt(5))/2; 
retl- argl / (1 * theta) 
ret2- argl / (1 * theta) * theta; 
return (1); 
endsub; 
run; 


options cmplib-work.funcs; /* 调 用 代码 开始 */ 
data null ; 

vi-5; 

v2-.; v3-.; 

rc-decomposite(vl, v2, v3); 

r-v3/v2; 

put vl- v2- v3- r- ; 
run; 


输出 : 
V1=5 v2-3.0901699437 v3=1.9098300563 r-1.6180339887 


利用 outargs 语句 配合 数组 参数 可 从 FCMP 函数 中 返回 批量 数据 ， 也 就 是 说 outargs 
语句 修饰 某 个 参数 ， 实 际 上 表示 该 参数 是 “ 按 引用 ”传递 ， 而 非 “ 按 值 ”传递 。 如 果 参 
数 为 数组 时 不 需要 指定 数组 大 小 ， 用 a[*] 或 a[*] $ 表示 即 可 (其 中 $ 表示 该 参数 是 字符 
型 数组 ) 。 程 序 5-15 展示 了 如 何在 FCMP 函数 中 将 字符 数组 颠倒 过 来 。 
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程序 5-15 ”从 FCMP 函数 返回 一 个 数组 
proc fcmp outlib-work.funcs.math; 
function reverserarray( args c[*] $); 
outargs args c; 


length-dim(args c); 
do i-1 to floor (length/2); 
j-length-i*1; 
tmp-args c[i]; 
args c[i]- args c[j]; 
args c[j]-tmp; 
end; 
return (1); 
endsub; 
run; 


options cmplib-work.funcs; 
data null ; 
array a[5] $ ("a", "b", "c", "d", "e"); 


do i-1 to dim(a); 
put a[i] 66; 
end; 
rc=reverserarray (a) ;/* 调 用 自 定义 函数 */ 
put "-» " Q6; 
do i-1 to dim(a); 
put a[i] 66; 
end; 
run; 


系统 输出 : abcde->edcba 


在 FCMP 函数 内 也 可 定义 本 地 临时 数组 ， 如 果 该 数组 是 数值 型 的 话 ， 可 调用 CALL 
dynamic array 例 程 在 程序 运行 时 动态 改变 该 数组 长 度 。 然 而 SAS 不 支持 在 PROC FCMP 
函数 中 改变 一 个 从 函数 外 传 入 数组 的 大 小 ， 也 不 支持 从 PROC FCMP 函数 中 返回 一 个 本 
地 临时 数组 给 外 部 函数 调用 者 。 

当 需 要 引用 多 个 函数 库 时 ， 可 在 cmplib 中 用 空格 或 逗号 分 隔 来 指定 多 个 参数 ， 也 可 
以 使 用 减 号 “-” 来 表示 一 系列 参数 。 如 果 名 称 相同 的 函数 在 多 个 库 中 都 有 定义 ， 则 越 
后 指定 的 库 中 所 定义 的 函数 具有 越 高 优先 调用 权 , 这 一 特性 可 实现 FCMP 函数 重 写 机 制 ， 
替换 某 些 现 有 函数 的 具体 实现 。 比 如 : 


options cmplib-(work.mathl work.math2 work.math3);  /* 逐 一 指定 */ 
options cmplib=(work.mathl - work.math3);/* 批 量 指定 mathl,math2,math3*/ 


当 分 析 人 员 在 分 工 合作 编写 大 型 数据 分 析 项 目 时 ， 可 能 在 定义 函数 时 需要 引用 别人 
写 的 代码 。 此 时 需要 在 PROC FCMP 中 使 用 library 参数 来 引用 别人 写 好 的 SAS 函数 库 。 
比如 下 面 的 例子 创建 一 个 计算 平方 和 的 函数 square， 它 需要 引用 前 面 例子 中 work. funcs 
函数 库 中 已 经 定义 的 加 法 add 和 乘法 multiply 函数 〈 见 程序 5-16》。 

程序 5-16 基于 已 有 的 FCMP 函数 库 开发 自 定义 FCMP 函数 

proc fcmp outlib-work.funcs2.math library-work.funcs ; 

function square(argl, arg2); /* 封 装 平方 和 x^2 + y^2 计算 逻辑 */ 


ret=add (multiply (argl, argl), multiply (arg2, arg2)) 
return (ret); 
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endsub; 
run; 


/* 函 数 调用 阶段 : 当 调用 funcs2 中 的 函数 时 ， 需 要 将 它 所 链接 的 函数 库 funcs 也 一 并 包含 */ 
options cmplib= (work. funcs2 work.funcs); 
data mydata; 


input x y; 
z-square (x, y); 
cards; 
122 
34 
run; 
proc print data-mydata; run; 
系统 输出 如 图 5-8 所 示 。 
Obs x y z 
m 12| 5 
2/3 4 25 


5-8 ”链接 底层 函数 库 


如 果 只 想 定义 没有 返回 值 的 函数 〈 在 SAS 里 称 为 子 例 程 ) 该 怎么 办 ? 只 需 在 定义 中 
将 FUNCTION 改 为 SUBROUTINE， 不 要 使 用 RETURN 语句 指定 返回 值 。 此 时 调用 该 
用 户 子 例 程 需要 在 前 面 加 上 CALL， 跟 调用 系统 例 程 方法 一 样 。 

另外 ， 在 PROC FCMP 中 不 但 可 以 调用 系统 函数 、 用 户 自 定义 FCMP 函数 ， 也 可 调用 
SAS 宏 函 数 。 程 序 5-17 展示 了 PROC FCMP 如 何 通过 系统 函数 RUN MACRO 调用 用 户 自 
定义 宏 函 数 ， 该 技巧 揭示 了 如 何在 一 个 数据 步 内 调用 另 一 个 数据 步 内 定义 的 计算 逻辑 。 


程序 5-17 在 FCMP 函数 中 调用 SAS AEM 
%macro Add; /* 参 数 : argl arg2 retl*/ 
data null ; 
ret- &argl + &arg2; 
call symput('retl', ret) ;/* 将 计算 结果 放 入 全 局 宏 变 量 retl 中 */ 
run; 
*mend; 


proc femp outlib-work.funcs.math; 
function add(argl,  arg2); 
rc = run macro('Add', argl, arg2, retl);/*iji Macro 函数 Add */ 
if rc = 0 then return(ret1) ;/* 返 回 计算 结 果 retl*/ 
else return(.); 
endsub; 
run; 


options cmplib- (work.funcs); 
data mydata; 

input x y; 

z=add (x,y); /* 调 用 FCMP 函数 add*/ 
cards; 


run; 
proc print data-mydata;run; 
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输出 如 图 5-9 所 示 。 


Obs x y z 
1|1|2/|3 
2347 


图 5-9 FCMP 函数 实现 跨 DATA 步调 用 机 制 


实际 上 ，SAS 语言 中 可 以 调用 其 他 计算 机 语言 编写 的 函数 库 ， 如 C 语言 或 Java 语 
言 编写 的 函数 库 ， 甚 至 操作 系统 的 Win32 API 系统 动态 库 。 很 多 编程 人 员 觉 得 SAS 很 难 
学 ， 是 因为 SAS 语言 在 设计 上 实在 太 灵活 ， 以 至 于 很 多 编程 人 员 找 不 到 一 个 固定 的 代码 
框架 或 设计 模式 ， 这 些 系统 互 操作 内 容 将 在 后 面 章节 阐述 。 


5.4 


REPRE TE 


SAS 系统 中 提供 约 553 个 系统 函数 供用 户 调用 ， 用 户 在 进行 数据 分 析 时 大 可 不 必 重 
新 发 明 轮 子 , 而 是 应 该 充分 了 解 这 些 SAS 系统 函数 。 笔 者 将 所 有 的 系统 函数 和 子 例 程 ( 带 
有 * 号 前 级 者 ) 从 简单 到 复杂 归纳 为 如 下 16 个 类 别 ， 供 读者 参考 ， 在 编程 时 还 需 查 找 
帮助 文档 获得 调用 细节 。 


(D 


(2 


字符 和 正则 表达 式 : 主要 包括 处 理 字 符 数据 的 96 个 函数 或 例 程 ， 以 及 专门 用 
于 支持 Perl 正则 表达 式 的 11 个 函数 。 

字符 处 理 (96) : ANYALNUM ANYALPHA ANYCNTRL ANYDIGIT ANYFIRST 
ANYGRAPH ANYLOWER ANYNAME ANYPRINT ANYPUNCT ANYSPACE 
ANYUPPER ANYXDIGIT BYTE *CATS *CATT *CATX *COMPCOST *MISSING 
*SCAN CAT CATQ CATS CATT CATX CHAR CHOOSEC CHOOSEN COALESCEC 
COLLATE COMPARE COMPBL COMPGED COMPLEV COMPRESS COUNT COUNTC 
COUNTW DEQUOTE FIND FINDC FINDW FIRSTIFC INDEX INDEXC INDEXW LEFT 
LENGTH LENGTHC LENGTHM LENGTHN LOWCASE MD5 MISSING MVALID 
NLITERAL NOTALNUM NOTALPHA NOTCNTRL NOTDIGIT NOTFIRST 
NOTGRAPH NOTLOWER NOTNAME NOTPRINT NOTPUNCT NOTSPACE 
NOTUPPER NOTXDIGIT NVALID PROPCASE QUOTE RANK REPEAT REVERSE 
RIGHT SCAN SHA256 SHA256HEX SHA256HMACHEX SOUNDEX SPEDIS 
STRIPSUBPADSUBSTR (leftof=) SUBSTR (rightof=) SUBSTRN TRANSLATE 
TRANSTRN TRANWRD TRIM TRIMN TYPEOF UPCASE VERIFY 

正则 表达 式 函 数 或 子 例 程 (ID : PRXCHANGE PRXMATCH PRXPAREN PRXPARSE 
PRXPOSN *PRXCHANGE *PRXDEBUG *PRXFREE *PRXNEXT *PRXPOSN 
*PRXSUBSTR 

数值 表达 式 判 断 与 数据 取 整 处 理 (12) : 

TFN CEIL CEILZ FLOOR FLOORZ FUZZ INT INTZ ROUND ROUNDE ROUNDZ TRUNC 
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G) 日 期 时 间 函 数 (49) : 用 来 处 理 各 种 日 期 时 间 类 型 的 数据 
IS8601 CONVERT *DATDIF DATE DATEJUL DATEPART DATETIME DAY DHMS 
HMS HOLIDAY HOLIDAYCK HOLIDAYCOUNT HOLIDAYNAME HOLIDAYNX 
HOLIDAYNY HOLIDAYTEST HOUR INTCINDEX INTCK INTCYCLE INTFIT 
INTFMT INTGET INTINDEX INTNX INTSEAS INTSHIFT INTTEST JULDATE 
JULDATE7 MDY MINUTE MONTH NWKDOM QTR SECOND TIME TIMEPART 
TODAY TZONEID TZONENAME TZONEOFF TZONES2U TZONEU2S WEEK 
WEEKDAY YEAR YRDIF YYQ 

(4) 数组 函数 G) 以 及 数据 的 查找 和 排序 (4) : 
DIM HBOUND LBOUND 
WHICHC WHICHN *SORTC *SORTN 

(5) 数学 函数 (39) : ABS AIRY BETA *LOGISTIC *SOFTMAX *STDIZE *TANH 
CNONCT COALESCE COMPFUZZ CONSTANT DAIRY DEVIANCE DIGAMMA 
ERF ERFC EXP FACT FNONCT GAMMA GCD IBESSEL JBESSEL LCM 
LGAMMA LOG LOGIPX LOG10 LOG2 LOGBETA LOGISTIC MOD MODZ 
MSPLINT SIGN SQRT TNONCT TRIGAMMA 以 及 一 个 特殊 的 除法 函数 DIVIDE 
三 角 函 数 (10) : ARCOS ARSIN ATAN ATAN? COS COT CSC SEC SIN TAN 
双 曲 函数 (6) : ARCOSH ARSINH ARTANH COSH SINH TANH 

(6) SAS 宏 有 关 操 作 (9) : 
*EXECUTE *SYMPUT *SYMPUTX DOSUBL RESOLVE SYMEXIST SYMGET 
SYMGLOBL SYMLOCAL 

CD. 字 节 按 位 操作 函数 (6) : BAND BLSHIFT BNOT BOR BRSHIFT BXOR 

(8) 文件 和 目录 通用 操作 (37) : DCLOSE DCREATE DINFO DNUM DOPEN DOPTNAME 
DOPINUM DREAD DROPNOTE DSNCATLGD FAPPEND FCLOSE FCOL FDELETE 
FEXIST FGET FILEEXIST FILENAME FILEREF FINFO FNOTE FOPEN 
FOPTNAME FOPTNUM FPOINT FPOS FPUT FREAD FREWIND FRLEN FSEP 
FWRITE MOPEN PATHNAME RENAME SYSMSG SYSRC 
SAS 数据 文件 专用 操作 (33) : ATTRC ATTRN CEXIST CLOSE CUROBS DROPNOTE 
DSNAME ENVLEN EXIST FCOPY FETCH FETCHOBS GETVARC GETVARN 
IORCMSG LIBNAME LIBREF NOTE OPEN PATHNAME POINT RENAME 
REWIND SYSEXIST SYSMSG SYSRC VARFMT VARINFMT VARLABEL 
VARLEN VARNAME VARNUM VARTYPE 

(9) 变量 信息 (3D 和 变量 控制 G): 
*VNEXT VARRAY VARRAYX VFORMAT VFORMATD VFORMATDX VFORMATN 
VFORMAINX VFORMATW VFORMATWX VFORMATX VINARRAY VINARRAYX 
VINFORMAT VINFORMATD VINFORMATDX VINFORMATN VINFORMATNX 
VINFORMATW VINFORMATWX VINFORMATX VLABEL VLABELX VLENGTH 
VLENGTHX VNAME VNAMEX VTYPE VTYPEX VVALUE VVALUEX 
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(10) 


(11) 


(125 


(132 


(14) 


a5 


(16) 


* LABEL * SET * VNAME 
内 存 读 写 及 操作 系统 相关 的 特殊 函数 (31) : 

ADDR ADDRLONG *POKE *POKELONG *SLEEP *SYSTEM *TSO DIF 
FMTINFO GETOPTION INPUT INPUTC INPUTN LAG PEEK PEEKC 
PEEKCLONG PEEKLONG PTRLONGADD PUT PUTC PUTN SLEEP 
SYSEXIST SYSGET SYSPARM SYSPROCESSID SYSPROCESSNAME 
SYSPROD SYSTEM UUIDGEN 

调用 外 部 模块 (4) : *MODULE MODULE MODULEC MODULEN 

安装 模块 检查 (1): MODEXIST 

HTML 5 URL 编 解码 (4) 和 SOAP Web 服务 (6) : 

HTMLDECODE HTMLENCODE URLDECODE URLENCODE SOAPWEB 
SOAPWEBMETA SOAPWIPSERVICE SOAPWIPSRS SOAPWS SOAPWSMETA 
随机 数 处理 (22) : *RANBIN *RANCAU *RANEXP *RANGAM *RANNOR *RANPOI 
*RANTBL *RANTRI *RANUNI *STREAMINIT NORMAL RANBIN RANCAU RAND 
RANEXP RANGAM RANNOR RANPOI RANTBL RANTRI RANUNI UNIFORM 
排列 组 合 (23) : ALLCOMB ALLPERM *ALLCOMB *ALLCOMBI *ALLPERM 
*GRAYCODE *LEXCOMB *LEXCOMBI *LEXPERK *LEXPERM *RANCOMB 
*RANPERK *RANPERM COMB GRAYCODE LCOMB LEXCOMB LEXCOMBI 
LEXPERK LEXPERM LFACT LPERM PERM 

描述 性 统计 (32) : CMISS CSS CV EUCLID GEOMEAN GEOMEANZ HARMEAN 
HARMEANZ IQR KURTOSIS LARGEST LPNORM MAD MAX MEAN MEDIAN 
MIN MISSING N NMISS ORDINAL PCTL RANGE RMS SKEWNESS 
SMALLEST STD STDERR SUM SUMABS USS VAR 

概率 (18) 与 分 位 数 (8) : CDF LOGCDF LOGPDF LOGSDF PDF POISSON 
PROBBETA PROBBNML PROBBNRM PROBCHI PROBF PROBGAM PROBHYPR 
PROBMC PROBNEGB PROBNORM PROBT SDF BETAINV CINV FINV GAMINV 
PROBIT QUANTILE SQUANTILE TINV 

邮政 编码 〈12) 和 地 理 空间 (2) 有 关 函 数 : FIPNAME FIPNAMEL FIPSTATE 
STFIPS STNAME STNAMEL ZIPCITY ZIPCITYDISTANCE ZIPFIPS ZIPNAME 
ZIPNAMEL ZIPSTATE GEODIST ZIPCITYDISTANCE 

金融 计算 (ADD 函数 : 

BLACKCLPRC BLACKPTPRC BLKSHCLPRC BLKSHPTPRC COMPOUND CONVX 
CONVXP CUMIPMT CUMPRINC DACCDB DACCDBSL DACCSL DACCSYD 
DACCTAB DEPDB DEPDBSL DEPSL DEPSYD DEPTAB DUR DURP EFFRATE 
FINANCE GARKHCLPRC GARKHPTPRC INTRR IPMT IRR MARGRCLPRC 
MARGRPTPRC MORT NETPV NOMRATE NPV PMT PPMT PVP SAVING SAVINGS 
TIMEVALUE YIELDP 


SAS Ë 


在 传统 编程 语言 C/C++ 中 ， 可 以 使 用 预 处 理 语句 #define 来 定义 宏 变 量 ， 也 可 以 使 用 
其 他 以 # 号 开头 的 宏 语 名 来 实现 条 件 编译 功能 ， 如 #ifdef ….#else… #endif 等 。 也 有 一 些 语 
言 如 Java 不 提供 预 处 理 支持 ， 编 程 人 员 只 好 使 用 静态 常量 以 及 泛 型 技术 来 实现 类 似 控制 
机 制 。C# 语言 为 了 灵活 的 编译 控制 依然 保留 了 define. #if, #else, #endif 等 宏 语 句 。 在 
计算 机 语言 中 ， 宏 到 底 是 什么 ， 它 在 SAS 语言 中 又 是 如 何 工 作 的 呢 ? 

总 体 来 说 ， 宏 技术 在 编译 领域 的 作用 就 是 告诉 编译 器 在 正式 代码 编译 之 前 ， 由 预 处 
理 器 根据 一 系列 预定 义 的 规则 有 条 件 地 对 源 代 码 进行 文本 替换 ， 称 之 为 宏 展 开 。 宏 技术 
是 编程 语言 之 上 的 更 大 范围 的 一 种 高 级 抽象 〈 据 《康熙 字典 》: ZAREK) ， 它 能 在 
比 源 代码 更 高 的 层次 上 提供 灵活 的 逻辑 控制 能 力 ， 即 源 代码 进入 编译 阶段 之 前 执行 一 系 
列 预 处 理 功 能 。 

SAS 宏 比 传统 编程 语言 的 宏 技 术 “ 有 过 之 而 无 不 及 ”, 实现 了 SAS 代码 的 高 级 复 用 ， 
让 SAS 程序 更 加 精巧 和 灵活 。SAS 宏 易 于 学 习 ， 但 也 很 容易 令 人 困惑 ， 因 为 程序 员 很 
容易 将 宏 本 身 ， 跟 宏 展 开 后 输出 代码 混为一谈 。SAS 宏 系 统 非 常 强 大 ， 不 但 支持 宏 变 量 
替换 和 条 件 分 支 控制 ， 而 且 支持 更 加 高 级 的 循环 控制 ， 以 及 宏 函 数 〈 系 统 宏和 用 户 自 定 
LE) 机 制 。 宏 技术 本 身 在 SAS 语言 里 已 经 发 展 成 了 一 种 特殊 语言 ， 可 在 更 抽象 的 层面 
上 对 SAS 源 代码 进行 操纵 ， 实 现 分 析 数 据 、 编 写 报告 以 及 自动 执行 代码 等 功能 。 

通过 前 面 章 节 的 学 习 我 们 知道 SAS 程序 由 各 种 SAS 语句 ， 包 括 全 局 语句 、DATA 
步 或 PROC 步 语句 组 成 :， 但 SAS 代码 中 其 实 还 可 以 包含 SAS RHA SCL 语言 和 SQL 
语言 编写 的 语句 。 SAS 代码 提交 执行 时 ， 源 代码 首先 被 读 入 计算 机 内 存 的 输入 缓冲 区 中 
进行 字符 扫描 ， 如 果 字 符 包含 SAS 宏 技术 约定 的 字符 & 和 %( 前 者 标识 宏 变 量 ， 后 者 
标识 宏 语 句 ) 时 ， 这 些 代码 就 会 触发 宏 处 理 器 进行 宏 展开 操作 ， 宏 展开 后 的 代码 会 追加 
到 输入 缓冲 区 供 编译 器 继续 进行 处 理 。 

宏 展开 完毕 的 SAS 代码 再 交 由 SAS 编译 器 进行 词法 分 析 和 编译 运行 。 需 要 特别 注 
意 一 点 是 ，SAS 宏 技 术 的 引入 并 未 减少 SAS 程序 的 执行 时 间 ， 而 是 减少 编写 重复 或 高 
相似 性 的 SAS 代码 ， 从 而 增强 了 SAS 程序 的 可 维护 性 。SAS 代码 预 处 理 机 制 如 图 6-1 
所 示 ， 宏 处 理 器 负责 解析 SAS 宏 代 码 。 


SAS 代 码 — 输入 栈 一 > 字符 扫描 器 一 ”编译 器 


L 宏 处 理 器 d 


6-1 SAS 代码 预 处 理 机 制 


ENNNNNEE!SASHCRPHS. 从 程序 员 到 数据 科学 家 


宏 变 量 本 质 上 就 是 一 种 字符 类 型 的 变量 ， 由 它 的 名 字 和 字符 串 值 共同 构成 一 个 符号 
表 。 宏 变量 的 值 可 以 来 自 真正 的 SAS 变量 ， 数 字 或 文本 ， 或 者 是 宏 表 达 式 。SAS 源 代 
码 中 出 现 % 号 和 & 号 的 地 方 (包括 代码 中 以 双 引 号 括 起 来 的 字符 串 中 )〉 都 是 触发 SAS 
宏 处 理 的 地 方 ， 但 单 引 号 括 起 来 的 字符 串 中 出 现 的 % 号 和 & 号 不 会 触发 宏 展 开 。 


6.1.1 命名 


SAS 宏 变 量 命名 遵循 SAS 命名 规则 ， 可 以 是 字母 、 数 字 或 下 划 线 ， 但 必须 以 字母 
或 下 划 线 开头 ， 最 大 长 度 不 得 超过 32 字 节 。 如 果 定 义 宏 变 量 的 时 候 该 宏 变 量 在 系统 符 
号 表 中 已 经 存在 ， 系 统 会 自动 覆盖 已 有 的 宏 变 量 。 

宏 变 量 可 以 使 用 %GLOBAL 或 %LOCAL 语句 预先 定义 ， 也 可 以 直接 用 %LET 语句 
定义 并 赋值 。 其 中 ALET 语句 主要 用 于 赋值 ， 仅 在 宏 变量 没有 定义 时 才 会 自动 创建 。 当 前 
SAS 会 话 的 任何 代码 (包括 DATA 步 外 的 开放 代码 ) 中 ， 都 可 使 用 & 宏 变 量 名 方式 对 宏 
变量 进行 引用 。 其 基本 语法 如 下 : 


$LET MACRO-VARIABLE =<VALUE>; 


比如 : 


$1et foo-value; 
$put &foo; 


系统 输出 : VALUE 


当 使 用 %LET 语句 对 宏 变 量 进行 赋值 时 ， 其 等 号 右 侧 的 内 容 被 SAS 处 理 时 遵循 如 
下 规则 。 

COD 首尾 的 连续 空格 在 赋值 前 会 被 自动 删除 。 

(2) 数值 也 是 被 当 作文 本 看 待 ， 数 学 表达 式 不 会 被 自动 求 值 ， 除 非 使 用 特定 宏 函 
数 处 理 。 

GO 引号 本 身 也 是 宏 的 一 部 分 ， 宏 表达 式 中 的 引号 并 不 是 字符 串 标 记 符 号 ， 只 是 
作为 字符 串 的 引号 本 身 。 

(4) 文本 长 度 必须 介 于 1-65534 字符 ， 比 16 位 无 符号 整数 的 最 大 值 65535 少 1. 


6.42 ”作用 域 


宏 变 量具 有 作用 域 的 概念 ， 宏 变量 可 以 在 SAS 会 话 中 全 局 有 效 ， 或 者 在 SAS 宏 函 
数 中 局 部 有 效 。 如 果 宏 变量 定义 在 一 个 SAS 宏 函 数 内 部 ， 它 的 作用 域 就 是 局 部 的 ， 只 能 
在 该 宏 函 数 内 起 作用 。 但 如 果 宏 变 量 定义 在 任何 宏 函 数 外 ， 则 可 在 SAS 程序 任何 地 方 使 
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用 已 经 定义 的 全 局 宏 变 量 。 考 察 如 下 代码 : 
sput &foo; /* 斌 图 引用 一 个 不 存在 的 宏 变量 */ 
输出 : 


WARNING: Apparent symbolic reference FOO not resolved. 
&FOO 


如 果 改 为 


$1et foo-GLOBAL "MACRO" VAR; 

$put &foo; /* 输 出 : GLOBAL "MACRO" VAR*/ 

WR ALET 语句 在 一 个 SAS 宏 函 数 内 部 给 某 个 宏 变 量 赋值 ， 默 认 情 况 下 该 宏 变 量 是 
宏 函 数 的 局 部 变量 。 如 果 ALET 语句 在 非 宏 函 数 内 的 开 型 代码 中 , 则 该 宏 变 量 为 全 局 变量 。 

在 调用 宏 变 量 赋 值 语句 %LET 之 前 ， 可 使 用 %GLOBAL 和 %LOCAL 语句 先行 对 
宏 变 量 进行 定义 ， 分 别 指定 宏 变 量 作用 域 是 全 局 还 是 局 部 。 如 果 已 经 定义 了 某 个 全 局 宏 
变量 ， 同 时 在 某 个 宏 函 数 内 部 再 次 用 %LOCAL 定义 一 个 同名 宏 变量 ， 则 宏 处 理 器 在 执 
行 到 该 宏 函 数 内 时 使 用 局 部 定义 的 宏 变 量 值 ， 在 该 宏 函 数 之 外 使 用 全 局 宏 变 量 值 。 这 
说 明 局 部 宏 本 质 上 是 定义 在 宏 函 数 局 部 的 符号 表 中 ， 而 非 全 局 符号 表 中 ; 宏 变 量 的 查 
找 顺 序 也 是 先 从 宏 函 数 局 部 符号 表 查 找 ， 然 后 再 从 全 局 符号 表 中 查找 。 下 面 的 代码 CN, 
程序 6-1) 将 输出 : GLOBAL GLOBAL LOCAL GLOBAL， 最 后 一 个 输出 的 是 GLOBAL 
而 不 是 宏 函 数 MyMacroFunction 内 设置 的 值 LOCAL。 该 代码 可 帮助 读者 很 好 地 理解 
SAS 宏 变 量 的 作用 域 。 

程序 6-1 “理解 SAS 宏 变量 的 作用 域 

$1et foo-GLOBAL; 

$put &foo; /* 输 出 : GLOBAL*/ 


$macro MyMacroFunction; 
$put &foo; /* 输 出 : GLOBAL*/ 


$1ocal foo; 

$1et foo-LOCAL; 

$put &foo; /* 输 出 : LOCAL*/ 
$mend; 
&MyMacroFunction; 
$put &foo; /* 输 出 : GLOBAL*/ 


6.1.3 RRE 


系统 宏 是 预先 定义 在 全 局 符号 表 中 的 一 系列 宏 变 量 ， 它 们 在 当前 SAS 会 话 中 全 局 有 
效 。 比 如 全 局 宏 变 量 &SYSDATE 和 &SYSTIME， 分 别 表示 当前 SAS 会 话 开始 的 日 期 和 
时 间 。 检测 当前 SAS 会 话 中 到 底 有 哪些 宏 被 定义 了 ， 可 调用 宏 语 句 %PUT 来 显示 。 比 如 : 


$put ALL ; /* 列 出 所 有 宏 变 量 */ 

sput _AUTOMATIC_;/* 列 出 所 有 系统 定义 的 宏 变 量 */ 

put GLOBAL ;  ”/* 列 出 所 有 全 局 (会 话 级 ) 宏 变 量 */ 

$put LOCAL ; /* 列 出 所 有 局 部 (正在 执行 的 宏 ) 宏 变量 */ 
$put USER ; /* 列 出 所 有 用 户 定义 的 宏 变量 */ 
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如 果 对 已 经 定义 的 宏 变 量 使 用 & 宏 变 量 名 进行 引用 ， 但 SAS 系统 约定 对 包含 在 单 
引号 内 的 文本 不 会 进行 宏 展开 。 程 序 员 可 在 代码 中 直接 引用 宏 变 量 ， 也 可 在 双 引 号 文本 
中 引用 宏 变 量 。 考 察 如 下 代码 〈 见 程序 6-2) : 

程序 6-2 宏 变量 解析 在 单 引号 文本 中 被 忽略 

$1et dsname-sashelp.class; 

$1et author-Yinliang Wu; 

title "Content of dataset &dsname "; /* 双 引号 中 引用 宏 变 量 */ 

title2 'Author: &author'; /* 单 引号 中 不 作 宏 展开 */ 

proc print data-&dsname; /* 直 接 引 用 宏 变 量 */ 

run; 

上 面 的 代码 会 输出 期 望 的 报表 标题 ， 当 title2 语句 指定 次 一 级 标题 时 ， 宏 变量 
&author 并 不 起 作用 《〈 见 图 6-2) 。 原 因 是 在 title2 语句 中 使 用 了 单 引号 来 包含 字符 串 ， 


而 单 引号 字符 串 中 的 & 和 % 号 是 不 会 被 宏 展开 的 ， 此 时 换 成 双 引 号 即 可 。 


Content of dataset sashelp.class 
Author: &author 


Obs Name |Sex Age Height Weight 


1 Alfred |M 14 69.0. 1125 
2 Alice F 13 56.5 84.0 
3 Barbara F 13 65.3 98.0 


a raa A mtn A IR m Ki i mam 


图 6-2 宏 变 量 仅 在 双 引 号 中 起 作用 


通常 宏 变 量 引 用 以 & 符 开始 ， 以 空格 结束 ; 有 时 为 了 在 连续 的 文本 中 明确 指示 宏 变 
量 的 起 止 ， 可 使 用 & 符 开始 ， 以 英文 句号 . 符 结束 的 形式 来 明确 区 分 宏 变量 与 前 后 文本 ， 
如 程序 6-3 所 示 。 

程序 6-3 ” 宏 变量 的 起 止 控制 

$1et varl-leon; 

data null ; 


put "&varla and &varlardo"; 
run; 


运行 代码 后 系统 报告 没有 解析 符号 引用 VARIA 和 VAR1ARDO， 而 实际 上 我 们 是 希 
望 输出 Leona and Leonardo， 此 时 可 以 将 put 语句 修改 如 下 即 可 : 


put "&varl.a and &varl.ardo"; 


入 符号 作为 宏 变 量 的 标识 ， 如 果 需 要 生成 & 字符 本 身 ， 则 需要 使 用 两 个 连续 的 & 
符 代 替 。 基 于 这 一 特性 ， 可 以 定义 多 重 宏 变 量 引 用 ， 实 现 多 层 宏 变量 的 逐步 展开 。 比 如 
程序 6-4 的 %PUT 语句 输出 都 是 Leon. 

程序 6-4 多 层 宏 变量 解析 和 引用 

$1et varl-leon; 


%let var2-&&varl; 
$put &varl &var2; 
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6.1.4 宏 代 码 调试 


SAS 主要 提供 两 个 系统 选项 mprint 和 mlogic 来 帮助 我 们 调试 宏 代 码 ， 用 于 静态 检 
查 宏 展开 生成 的 代码 及 动态 跟踪 宏 的 执行 过 程 。 

CO 静态 检查 宏 展 开 代码 : 请 运行 如 下 代码 〈 见 程序 6-5) 并 检查 日 志 窗口 。 

程序 6-5 启用 sas 宏 的 静态 调试 选项 


options mprint; /* 是 否 打 印 宏 展开 生 成 的 sas 语句 代码 ? 缺 省 为 NOMPRINT*/ 
options mprintnest; /* 打印 宏 展开 代码 时 是 否 榜 套 显示 ? WAA NOMPRINTNEST*/ 


%macro printclass(); 
proc print data-sashelp.class; 
run; 

5mend; 

Sprintclass; 


如 果 我 们 希望 把 SAS 宏 展开 的 代码 输出 到 特定 的 文件 中 调试 ， 可 以 在 宏 %macro 
printclass 之 前 插入 如 下 代码 〈 见 程序 6-6) ， 则 由 宏 展 开 后 的 源 代码 会 被 输出 到 外 部 文 
fF CAmymacro.sas 中 。 

程序 6-6 将 sas 宏 展开 结果 输出 到 源 代码 文件 

options mfile; /* 打 印 时 是 否 输出 到 外 部 文件 ， 缺 省 为 NOMFILE*/ 

filename mprint 'C:WMnymacro.sas'; 

/* 若 已 启用 em 系统 选项 ， 且 用 filename 语 句 指定 了 文件 引用 mprint， 则 代码 会 自 

动 输出 到 外 部 文件 */ 

OD 动态 跟踪 宏 执行 过 程 ， 可 启用 系统 选项 mlogic 来 跟踪 宏 处 理 器 的 动态 执行 逻 
辑 〈 见 程序 6-7) o 
程序 6-7 启用 跟踪 宏 处 理 器 的 动态 执行 逻辑 


options mlogic; /* 是 否 跟踪 宏 处 理 器 执行 过 程 ? 缺 省 为 NOMLOGIC*/ 
options mlogicnest; /*mlogic 是 否 显示 嵌 套 ? 缺 省 为 NOMLOGICNEST*/ 


6.1.5 ERER 


与 DATA 步 中 的 SAS 表达 式 类 似 ，SAS 宏 也 支持 表达 式 ， 称 为 宏 表 达 式 。 它 可 用 
于 求 值 运算 或 逻辑 控制 。SAS 宏 表 达 式 包含 算术 运算 符 、 比 较 运 算 符 和 逻辑 运算 符 。 
SAS 宏 表 达 式 在 语义 上 跟 SAS 表达 式 基本 一 致 ， 有 相当 多 的 SAS 语句 加 上 % 号 即 可 从 
普通 SAS 代码 变 为 SAS 宏 代 码 。 使 用 SAS 宏 表 达 式 需要 注意 如 下 一 些 事项 : 

a) 宏 代 码 中 的 比较 和 逻辑 运算 符 不 必 且 不 能 使 用 百 分 号 ， 包 括 LT. GT 和 
AND、OR 等 。 

(2) 宏 表达 式 不 支持 形 如 50.0 <= &Weight <= 80.0 的 判断 条 件 ， 必 须 用 多 个 比较 
表达 式 并 用 AND 连接 起 来 。 

G) 宏 表 达 式 中 可 以 有 括号 O 进行 分 组 ， 但 有 时 省 略 括号 O 也 可 正常 工作 〈 见 
程序 6-8) 。 
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程序 6-8 宏 表 达 式 范例 

S$macro test; 
$let a-8; 
%if 0<&a and (&a <5) $then $put inside; 
$else $put outside; 

5mend; 

%test; 


由 于 宏 展开 的 本 质 是 文本 蔡 换 ， 宏 里 面 的 字符 内 容 不 需要 使 用 单 引 号 或 双 引 号 括 起 
且 宏 表达 式 作为 字符 串 的 值 时 是 大 小 写 敏感 的 〈 见 程序 6-9) 。 

程序 6-9 给 宏 变 量 赋值 时 大 小 写 敏感 

%let a-Hello World; 

Slet b-HELLO WORLD; 


S$1et c-"Hello World"; 
$put &a &b &c; /* 输出 : Hello World HELLO WORLD "Hello World"*/ 


宏 变 量 只 能 是 文本 ， 即 使 是 数值 也 只 能 以 文本 方式 存在 。 为 了 在 SAS 宏 表达 式 中 支 
持 算术 运算 、 比 较 运算 和 风 辑 运算 ，SAS 提供 两 个 系统 宏 函 数 %EVAL 和 %SYSEVALF 
对 宏 表 达 式 进行 求 值 。 两 者 的 区 别 是 前 者 只 支持 不 包含 小 数 点 的 整数 表达 式 ;， 而 后 
者 %SYSEVALF 可 支持 浮 点 运算 ， 即 宏 表 达 式 或 求 值 结 果 中 可 以 包含 小 数 点 ， 也 可 以 指 
定 转换 类 型 。 如 果 表 达 式 中 不 包括 运算 符 ， 则 宏 函 数 会 直接 返回 表达 式 原来 的 值 。 两 个 
系统 宏 函 数 的 语法 如 下 : 


* 


&EVAL (EXPRESSION) 
&SYSEVALF (EXPRESSION, CONVERSION-TYPE ) 


考察 如 下 代码 〈 见 程序 6-100 : 


程序 6-10 ”对 宏 表 达 式 进行 求 值 

$1et exp-4/3; 

$1et eval Vl-$eval(&exp); 

$put &eval Vl; /* 输 出 : 1*/ 

$let expl-3; 

$let exp2-4; 

$put $sysevalf( &expl * &expl + &exp2 * &exp2 ); /* 输 出 平方 和 : 25*/ 


$1et eval V2-$sysevalf(&exp); /* 输 出 : 1.33333333333333 1*/ 


$1et sysevalf V1- $sysevalf(2»1,boolean); /+ 输出 : 1 */ 

$1et sysevalf v4- $sysevalf(5.49,ceil); /* 输出 向 上 取 整 : 6 */ 
$1et sysevalf v5- $sysevalf(5.49,integer); /* 输出 四 舍 五 入 : 5 */ 
$1et sysevalf v6- %sysevalf (5.49,floor); /* 输出 向 下 取 整 : 5 */ 
$1et sysevalf v4x- $sysevalf(-5.49,ceil); /* 输出 向 上 取 整 : -5 */ 


$1et sysevalf v5x- $sysevalf(-5.49,integer); /* 输出 四 舍 五 入 : -5 */ 


在 编写 宏 代码 运行 时 可 能 会 遇 到 错误 : "ERROR. ”检测 到 开 型 代码 语句 的 递归 ” 
这 往往 是 因为 宏 语 句 忘 了 用 分 号 结束 ， 导 致 宏 展开 无 法 继续 。 
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宏 变 量 比较 简单 也 容易 理解 ， 但 SAS 宏 函 数 就 相对 复杂 。 比 如 需要 对 一 系列 的 数据 
集 执行 一 系列 相同 或 类 似 的 SAS 分 析 代码 时 ， 可 以 考虑 利用 宏 函 数 来 封装 “重复 或 类 似 
的 SAS 代码 ”。SAS 程序 员 不 必 使 用 复制 / 粘贴 使 源 代码 非常 元 长 ， 像 封装 函数 一 样 对 
SAS 代码 进行 高 层次 的 代码 封装 即 可 ， 宏 展开 发 生 在 SAS 代码 编译 之 前 。 

SAS 宏 函 数 定义 的 基本 语法 如 下 : 


*MACRO MACRO-NAME «(PARAMETER-LIST)» </ OPTION-1 <… OPTION-N>> ; 
MACRO STATEMENTS; 
SMEND; 


TER SE X. %MACRO 语句 和 AMEND 语句 之 间 ， 可 以 包括 任何 SAS 语句 (如 
DATA/PROC 步 ) ， 也 可 以 包含 宏 变 量 引 用 ， 安 语句 或 表达 式 以 及 对 其 他 宏 的 调用 ， 甚 
至 可 以 包括 纯 文 本 ， 代 码 注释 等 。 唯 一 准则 就 是 宏 展开 后 的 文本 必须 符合 SAS 语言 的 语 

常见 的 一 个 错误 是 ， 企 图 在 一 个 DATA 步 内 调用 一 个 宏 ， 而 该 宏 已 经 封装 了 一 个 或 
多 个 DATA 步 的 调用 ， 这 时 系统 就 会 编译 不 过 。 原 因 很 简单 ， 宏 展开 后 会 导致 DATA 步 
代码 嵌 套 ， 从 而 导致 语法 错误 。 另 外 ，SAS 宏 封 装 的 代码 中 不 建议 使 用 行 注释 ， 而 应 该 
尽 可 能 使 用 以 “/*” 开 始 ， 以 “*/” 结 束 的 块 注释 ， 以 防止 不 期 望 的 宏 展 开 。 

对 于 一 个 已 经 定义 好 的 宏 函 数 ， 可 以 在 程序 中 除了 DATA 步 内 数据 行 以 外 的 任何 地 
方 进行 调用 ， 包 括 使 用 %macro-name 方式 进行 调用 ， 在 SAS 语句 中 调用 和 在 SAS 工作 
环境 的 命令 行 输入 窗口 中 进行 调用 三 种 方式 。 由 于 sas 宏 并 非 是 SAS 语句 ， 调 用 时 安 
名 称 后 的 分 号 是 不 必要 的 ， 因 为 分 号 是 SAS 语句 的 结束 符 ， 在 某 些 情况 下 可 能 会 导致 宏 
展开 后 插入 不 必要 的 分 号 ， 从 而 导致 最 终 代 码 发 生 编译 或 运行 错误 ;很 多 时 候 在 宏 调 用 
时 加 上 分 号 是 为 了 告诉 宏 解析 器 宏 调 用 结束 ， 可 开始 宏 展开 及 随后 的 编译 执行 。 


S$macro-name; 
比如 ,可 以 将 打印 数据 集 的 SAS 代码 封装 成 宏 ， 供 重复 调用 ( 见 程序 61D. 


程序 6-11 宏 函 数 示 例 

$macro printds; 
title "content of dataset &dsname"; 
proc print data-&dsname; 
run; 

*mend; 


/* 调 用 1: 打印 sashelp.class*/ 
$1et dsname-sashelp.class; 
$printds; 


/* 调 用 2: 打印 sashlep.prdsale */ 
$1et dsname-sashelp.prdsale; 
&printds; 
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运行 上 面 的 代码 可 以 看 到 SAS 宏 被 执行 两 次 ， 分 别 输出 SASHELPCLASS 和 
SASHELPPRDSALE 两 个 数据 集 的 内 容 。 但 由 于 上 面 的 代码 需要 依赖 于 全 局 宏 变 量 
&DSNAME, 因此 代码 的 耦合 性 不 好 。 这 时 就 需要 使 用 宏 函 数 的 参数 列表 , 对 参数 进行 封装 。 


参数 定义 


SAS 宏 函 数 的 参数 可 以 用 两 种 方式 进行 定义 : 一 种 称 为 顺序 参数 或 位 置 参 数 ， 另 一 
种 称 为 命名 参数 或 键 值 参数 。 

CD 顺序 参数 : 就 是 定义 宏 的 时 候 ， 按 照 先 后 顺序 定义 所 需 的 形式 参数 ;在 宏 调 
用 时 ， 也 需要 按照 同样 的 顺序 提供 实际 参数 。 比 如 : 


$MACRO FOO(ARGl, ARG2,-- , ARGN); 
MACRO STATEMENTS; 

SMEND; 

$FOO (V1, V2,:-, VN); 


据 此 修改 前 面 打 印 数据 集 的 SAS 宏 如 下 ， 可 同时 指定 报表 标题 〈 见 程序 6-12) : 
程序 6-12， 带 有 位 置 参数 的 宏 函数 示例 


&macro printds(dsname, title); 
title "content of dataset &title"; 
proc print data-&dsname; 
run; 
5mend; 
$printds(sashelp.class, Student);  /* 调 用 形式 */ 
S&printds (sashelp.prdsale, Product Sales); 


(2) 命名 参数 :在 宏 定 义 时 可 给 参数 命名 ， 然 后 在 实际 调用 的 时 候 也 采用 “参数 
名 = 参数 值 ”的 方法 来 指定 实际 参数 。 由 于 每 个 参数 已 经 定义 了 名 称 入 口 ， 因 此 函数 调 
用 时 参数 位 置 就 不 再 重要 。 在 宏 函 数 调用 时 如 果 没 有 指定 参数 ，SAS 则 会 使 用 宏 函 数 定 
义 时 所 指定 默认 值 进行 调用 。 其 语法 如 下 : 


$MACRO FOO(ARG1- DEF V1, ARG2-DEF V2,:*, ARGN= DEF VN); 
MACRO STATEMENTS; 

SMEND; 

$FOO (ARG2-V2, ARGN-VN); 


再 次 修改 前 面 打 印 数据 集 的 样 例 代 码 ， 给 宏 函 数 PRINTDS 指定 参数 名 称 和 默认 值 
〈 见 程序 6-13) 。 


程序 6-13 ” 带 有 命名 参数 的 宏 函 数 示例 

$macro printds(dsname-sashelp.class, title-class); 
title "content of dataset &title"; 
proc print data-&dsname; 
run; 


S&mend; 


$printds(); /* 以 宏 函 数 定义 的 默认 值 进行 调用 */ 
sprintds (title=My Class); /* 仅 指定 title 参数 */ 
$printds (dsname=sashelp.prdsale, title-My Product Sales); 
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6.3 逻辑 控制 


与 传统 的 C/C++ 宏 编 译 技术 不 同 ，SAS 不 但 提供 条 件 分 支 控 制 ， 还 提供 循环 控制 。 
这 样 SAS 宏 技 术 就 演变 为 SAS 代码 之 上 的 “超级 代码 ” 。 因 此 ， 合 理 巧 妙 地 利用 SAS 
宏 就 可 以 写 出 简洁 优美 的 SAS 程序 , 但 滥用 SAS 宏 则 会 导致 代码 可 读 性 差 且 调试 困难 。 


6.3.1 BEIR 


与 SAS 代码 一 样 ， 可 以 使 用 %DO-%END 将 多 条 SAS 宏 语 句 进行 分 组 ， 功 能 与 
DATA 步 的 DO-END 类 似 。 
%DO; 


MACRO STATEMENT; 
SEND; 


632 条件 分 支 


基于 一 个 或 多 个 条 件 ， 选 择 性 地 执行 条 件 块 里 面 的 代码 ; 与 DATA 步 中 的 条 件 分 支 
类 似 ，%ELSE 语句 是 可 选 的 。 其 基本 语法 如 下 : 


*IF «MACRO EXPRESSION» $THEN «TRUE MACRO STATEMENT»; 
*ELSE «FALSE MACRO STATEMENT»; 


宏 语 名 也 可 以 用 上 面 的 宏 语 句 块 %DO-%END 将 多 个 宏 语 句 包装 为 单个 宏 语 句 ， 实 
现 撕 套 。 宏 代码 中 也 可 使 用 跟前 面 SAS 代码 相同 的 %ELSE %IF 结构 实现 多 分 支 控制 ， 
此 处 不 再 袭 述 。 
$IF «MACRO EXPRESSION» %THEN %DO; 
TRUE MACRO STATEMENT; 
SEND; 
SELSE %DO; 


FALSE MACRO STATEMENT; 
SEND; 


6.3.8 ”循环 控制 


SAS 宏 的 循环 控制 主要 有 如 下 几 种 形式 : 

(1) 指定 次 数 的 循环 DO-TO-BY: 具有 固定 循环 次 数 或 步 长 时 使 用 ， 类 似 于 传统 
编程 中 的 FOR 循环 ,其 中 控制 循环 起 点 START、 终 点 END 和 步 长 STEP 可 以 是 宏 常 量 、 
宏 变 量 或 者 任何 能 够 展开 为 整数 的 宏 表 达 式 ， 而 %BY 语句 是 可 选 ， 默 认 步 长 为 1。 

$DO «MACRO-VAR» = «START» $TO «END» [$BY STEP]; 


MACRO STATEMENT; 
SEND; 
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COD 指定 条 件 的 循环 DO-WHILE: 在 进入 循环 体 前 进行 判断 ， 为 真 则 执行 循环 体 ， 
为 假 则 离开 循环 。 


DO WHILE «MACRO EXPRESSION»; 
MACRO STATEMENT; 
SEND; 


G) 指定 条 件 的 循环 DO-UNTIL: 执行 循环 体 后 进行 判断 ， 为 真 则 退出 循环 体 ， 
为 假 则 继续 循环 。 这 种 循环 方式 至 少 会 执行 循环 体 一 次 。 


*DO $UNTIL «MACRO EXPRESSION»; 
MACRO STATEMENT; 
SEND; 


为 综合 演示 SAS 宏 的 逻辑 控制 ， 下 面 我 们 完全 用 SAS 宏 语 言 来 实现 黄金 分 割 数列 
的 计算 ( 见 程 序 6-14) 。 


程序 6-14 ， 宏 版 的 斐 波 那 契 数 列 生成 器 
options nomprint nomlogic; 
*macro Fbnc; 
$1ocal x1 x2; 
$do n-1 $to 10; 
$if $eval(&n-1 or &n-2) $then 
$1et x-1; 
Selse 
%let x= $eval( &xl + &x2 ); 
$1et x2-&xl; 
$1et xl-&x; 
$put n-&n x-&x; /* 打 印 到 SAS 日 志 */ 
send; 
&mend; 
&Fbnc;  /* 调 用 宏 函 数 Fbnc*/ 


6.4 RIZR RZ 


SAS 系统 提供 若干 宏 函 数 ， 可 用 于 处 理 跟 SAS 宏 有 关 的 字符 处 理 和 计算 ， 宏 展开 
以 及 系统 函数 等 。 系 统 宏 函 数 可 使 用 在 开 型 代码 和 宏 函 数 内 ， 功 能 主要 包括 字符 处 理 ， 
宏 表 达 式 求 值 、 引 号 处 理 、 宏 变量 以 及 调用 SAS 系统 函数 等 几 大 类 。 简 要 描述 如 下 。 

1. 字符 宏 函 数 (8) : 用 于 定位 子 字 符 、 检 测 长 度 、 扫 描 字符 、 取 子 串 以 及 字符 串 
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大 小 写 转换 等 。 其 中 首 字 母 以 Q 开头 的 宏 函 数 用 于 结果 中 需要 屏蔽 特殊 字符 和 
助 记 符 时 使 用 。 
SINDEX $LENGTH $SCAN $QSCAN SSUBSTR $QSUBSTR $UPCASE SOQUPCRSE 
2. 求 值 宏 函 数 〈2) : 分 别 用 于 整 型 和 浮 点 型 表达 式 求 值 。 
SEVAL $SYSEVALF 


. 引号 宏 函 数 (8D. : 用 来 屏蔽 特殊 字符 和 助 记 符 ， 使 宏 处 理 器 将 它们 解释 为 纯 文 
本 ， 而 不 是 宏 语言 的 元 素 。 其 中 %STR 和 %NRSTR 用 于 宏 编 译 时 的 常量 文本 ， 
其 他 大 部 分 用 于 宏 执 行 阶段 的 解析 值 。 


w 


%BQUOTE $NRBQUOTE $QUOTE $NRQUOTE $STR $NRSTR $SUPERQ $UNQUOTE 


4. DBCS 特定 的 宏 函 数 (11): 主要 由 一 系列 首 字 母 为 K 源 自 日 文 汉字 (Kanji 的 缩写 ) 
的 宏 函 数组 成 ， 主 要 功能 包括 压缩 空格 、 定 位 字符 、 取 长 度 、 扫 描 字 符 、 取 子 串 
和 大 小 写 转换 等 。 


$KCMPRES $KINDEX $KLEFT $QKLEFT $KLENGTH $KSCAN $QKSCAN $KSUBSTR 
*QKSUBSTR $KUPCASE $QKUPCASE 


. 杂项 函数 (7) : 主要 功能 包括 检测 宏 变 量 是 否 存 在 ， 宏 变量 作用 域 检测 ， 在 
SAS 宏 中 执行 SAS 系统 函数 或 用 户 函数 ， 以 及 读 取 操 作 系统 环境 变量 ，SAS 产 
品 安装 模块 检测 等 ， 其 中 调用 系统 函数 ，%SYSFUNC 非常 有 用 。 


[9 


*SYMEXIST $SYMGLOBL $SYMLOCAL $SYSFUNC $QSYSFUNC $SYSGET $SYSPROD 


SAS 宏 为 SAS 编程 语言 提供 了 语言 之 上 的 超级 语言 ， 它 可 以 让 SAS 程序 在 编译 前 
动态 改变 或 生成 SAS 源 代码 。SAS 宏 展开 后 生成 的 SAS 代码 依然 要 求 遵守 SAS 语言 规 
范 ， 编 译 器 才能 够 正常 编译 执行 。 


DS2 


SAS 传统 的 DATA 步 虽然 强大 ， 但 从 计算 机 语言 的 角度 分 析 其 编程 特性 ， 仍 有 诸多 
不 足 之 处 ， 主 要 表现 在 如 下 几 个 方面 。 
(D 基础 数据 类 型 有 限 ， 仅 支持 定 长 字符 类 型 和 双 精 度 浮 点 型 两 种 基本 数据 类 
型 。 虽然 在 数据 分 析 中 不 是 什么 问题 ， 但 当 DATA 步 与 关系 数据 库 管 理 系统 
(RDBMS) 进行 交互 时 ， 数 据 库 所 支持 的 多 种 数据 类 型 可 能 在 与 DATA 步 交 
互 时 损失 精度 。 
(2) 变量 没有 作用 域 概念 ，DATA 步 中 没有 显 式 的 模块 化 和 面向 对 象 编程 的 基本 概念 。 
G) 运行 态 默认 只 有 进程 级 的 多 任务 处 理 ， 没 有 内 置 的 多 线程 支持 机 制 。 缺 乏 对 分 
布 式 并 行 架构 的 支持 ， 不 能 充分 利用 各 种 SMP/MPP 硬件 架构 下 对 海量 数据 并 
行 处 理 和 高 性 能 计算 能 力 。 
基于 以 上 原因 ，SAS 从 9.3 版 开始 扩展 传统 的 DATA 步 语言 ， 设 计 了 第 2 代 DATA 
步 语言 (简称 DS2) ， 并 在 9.4 版 本 开始 成 为 正式 的 产品 特性 。DS2 提供 了 类 似 面向 对 
象 编程 的 基本 概念 ， 它 将 程序 逻辑 执行 单元 封装 为 方法 ， 将 方法 和 数据 封装 为 对 象 实体 。 
从 而 实现 DS2 在 继承 第 一 代 DS 语言 流程 控制 和 语言 表达 式 风 格 基础 上 ， 向 对 象 方向 迈 
出 重要 一 步 。 与 传统 DATA 步 相 比 ，DS2 有 一 些 增强 特性 如 下 所 述 。 
(1) 提供 多 达 17 种 基本 数据 类 型 ， 支 持 强 大 的 高 精度 运算 能 力 。 因 此 它 要 求 变量 、 
方法 和 对 象 等 程序 实体 必须 显 式 定义 ， 而 不 像 在 DS 中 随 用 随 定 义 。 
(20 程序 变量 有 作用 域 机 制 ， 并 提供 类 似 于 Java/C++ 语言 的 类 /方法 封装 机 制 。 
(GO 提供 线程 并 行 执行 特性 ， 能 充分 利用 SMP/MPP 硬件 架构 的 计算 能 力 。 
在 具体 表现 形式 上 ，DS2 程序 表现 为 封装 在 PROC DS2 或 PROC HPDS2 过 程 步 中 
的 SAS 语句 集合 。 程 序 7-1 是 DS2 版 的 HelloWorld 程序 : 
程序 7-1 Ds2 版 的 HelloWorld 程序 
Proc ds2; 
data null ; 
method init(); 
declare varchar (32) str; 
str = 'The Power to Know(R)'; 
put str; 
put '-—-- Since 1976 ----'; 
end; 
enddata; 


run; 
quit; 


在 DS2 中 变量 必须 在 程序 头 部 先进 行 声明 ， 且 字符 串 必 须 用 单 引 号 括 起 来 。DS2 中 
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不 能 用 双 引 号 表示 字符 串 ， 因 为 在 DS2 中 双 引 号 表示 变量 引用 而 非 通常 的 字符 串 。 在 
Base SAS 环境 中 执行 上 面 的 代码 ， 系 统 输出 如 图 7-1 所 示 。 


te Sc SEN IAM X) PRAES BOW RAH 
se ] DB annn DAOA 
[es 

dg es 


Sus — usezwegs] ar- uem) |W 


MERET NE. TRAWS oeni IU] 


图 7-1 DS2 版 的 HelloWorld 程序 


实际 上 ，DS2 程序 可 以 运行 在 如 下 4 种 不 同 的 SAS 计算 环境 中 。 

(D) BASE 环境 : 即日 常 运行 SAS 的 基础 环境 。 

(2) HPA 环境 : 即 SAS 高 性 能 分 析 环 境 (SAS High-Performance Analytics) 。 

(3) INDB 环境 : 即 SAS 库 内 分 析 环 境 (SAS In-Database Code Accelerator) ， 需 要 

SAS 库 内 代码 加 速 器 和 SAS 嵌入 式 进程 (SAS Embedded-Process) 模块 的 支持 。 

(4) IMA 环境 : BI SAS 内 存 分 析 环 境 (SAS In-MemoryAnalytics) ， 包 括 SAS 最 新 

的 CAS 环境 。 

在 第 一 代 DS 语言 中 ， 有 LINK-RETURN 伪 函 数 、SAS 宏 函 数 和 FCMP 函数 3 种 函 
数 封装 技术 ， 其 中 ，FCMP 函数 封装 技术 跟 C/C++ 和 Java 语言 中 的 函数 概念 最 为 接近 ， 
函数 复 用 性 也 比较 广 ， 模块 化 代码 复 用 则 主要 依赖 静态 文件 包含 %INCLUDE 来 实现 。 

DS2 在 兼容 传统 DS 语言 的 基础 上 ， 在 模块 化 ， 健 壮 性 和 代码 重用 方面 有 飞跃 性 的 
进步 。 其 中 包 与 方法 封装 技术 跟 作 用 域 概念 的 引入 将 SAS 这 种 专门 的 数据 分 析 语言 推 到 
准 面向 对 象 时 代 。 面 向 对 象 的 三 大 特性 为 封装 、 继 承 和 多 态 性 ，DS2 提供 对 象 封装 和 方法 
重 载 ， 但 不 支持 继承 机 制 。 因 此 DS2 只 提供 了 准 面向 对 象 编程 概念 。 

DS2 技术 的 诞生 并 不 是 要 替换 掉 传统 DS 步 ， 而 是 传统 DS 步 的 增强 和 扩展 ; DS2 
增强 由 于 是 面向 分 布 式 计算 架 构 而 设计 ， 因 此 DS2 不 再 支持 某 些 专 为 单机 系统 设计 的 
产品 特性 ， 如 读 取 PC 数据 文件 的 INPUT 语句 以 及 合并 数据 的 MERGE 语句 等 。 但 
DS2 和 DS 之 间 依 然 可 用 SAS 数据 集 和 SAS 宏 紧 密 联系 在 一 起 形成 互补 的 强大 编程 
系统 。 
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7. 1 程序 结构 


DS2 程序 表现 为 封装 于 PROC DS2 过 程 步 中 的 程序 块 ， 主 要 包括 3 种 程序 类 型 : 
COD. 数据 程序 (DATA PROGRAM) ， 封 装 于 DATA ... ENDDATA 语句 之 间 。 
(2) 包 程 序 (PACKAGE PROGRAM) ,封装 于 PACKAGE ... ENDPACKAGE 语句 之 间 。 
(3) 线程 程序 (THREAD PROGRAM) ， 封 装 于 THREAD..ENDTHREAD 语句 之 间 。 
下 面 的 DS2 数据 程序 生成 只 包含 一 条 观测 的 数据 集 D， 其 中 变量 c 的 内 容 为 字符 串 
“ds2 data program” 〈 见 程序 7-2) o 


程序 7-2 Ds2 数 据 程序 极 简 示 例 
Proc ds2; 
data d / overwrite=yes; 
declare char(32) c; 
method init(); 
c-'ds2 data program'; 
end; 
enddata; 
run; 
quit; 


proc print data-d;run; 


输出 结果 如 图 7-2 所 示 。 


Obs c 
1 | ds2 data program 


| SAS 系统 


图 7-2 Ds2 数据 程序 输出 到 数据 集 


程序 7-2 与 程序 7-3 的 传统 DATA 步 等 价 ， 从 中 可 看 出 DATA ... ENDDATA 与 DATA 
步 的 功能 类 似 ， 不 同 之 处 是 DS2 可 包括 方法 定义 。 
程序 7-3 ”DS2 数 据 程序 极 简 示例 对 应 的 DATA 程 序 
data d; 
length c $ 32; 
c-'ds2 data program'; 
Ros print data-d;run; 


DS2 中 所 有 的 程序 实体 必须 用 标识 符 预先 定义 ， 标 识 符 由 字母 、 数 字 和 下 划 线 组 成 ， 
且 必 须 以 字母 或 下 划 线 开头 ， 程 序 实体 包括 变量 、 标 签 、 方 法 、 数 据 程序 、 包 程序 、 线 
程 程序 和 数组 等 。 


7.1.1 变量 声明 与 类 型 


DS2 变量 必须 用 DECLARE 语句 (别名 为 DCL) 对 变量 进行 预先 声明 ， 且 
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DECLARE 语句 只 能 出 现 于 程序 块 的 头 部 或 者 方法 的 头 部 ， 而 不 能 出 现在 中 间 部 分 。 如 


果 违 反 这 一 准则 ，SAS 会 报 编译 错误 。DECLARE 语句 的 完整 语法 如 下 : 


declare 数据 类 型 变量 名 having label ' 文 本 ' format 格式 informat 格式 ; 


比如 : 


declare char (8) name; /* 定 义 长 度 为 8 字符 的 定 长 字符 串 */ 
declare double weight; /* 定 义 Double 类 型 的 变量 weight*/ 


由 于 DS2 变量 可 输出 到 SAS 数据 集中 ， 因 此 定义 时 也 可 指定 标签 文本 以 及 输入 / 


输出 格式 信息 。 


declare varchar (32) prdname having label 'product name'; 
declare varchar (32) prdname2 having label 'product name' format$32.; 


下 面 的 例子 〈 见 程序 7-4) 演示 了 主要 数据 类 型 的 使 用 ， 需 要 特别 注意 VARCHAR 


和 CHAR 的 不 同 ，VARCHAR 类 型 的 变量 尾部 不 包括 自动 补 齐 空格 。 


程序 7-4 ps2 主要 数据 类 型 示例 
proc ds2; 
data null ; 
method init(); 

declare char (8) cl; ”/* 定 长 字符 ， 尾 部 自动 补 齐 空格 */ 
declare nchar (8) ncl; /* 支 持 unicode 字符 */ 
declare varchar(8) vcl; /* 变 长 字符 ,尾部 不 自动 补 齐 空 格 */ 
declare nvarchar(8) nvc; /* 支 持 unicode 字符 */ 
declare double d having label 'DBL' format best. informat best.; 
declare int i; 


cl -'abcd'; put cl= '«-'; 


ncl =' 唯 有 变化 才 是 永恒 '; put ncl- '«-'; 


vcl -'abcd'; put vcl- '«-'; 
vcl -'abcdefgh123'; put vcl- '«-'; 


d-1/3.0; put d=; /* 注 意 小 数 点 ， 如 果 写 成 1/3 是 整数 相 除 ， 结 果 等 于 0 */ 
i-32767; put i-; 


end; 
enddata; 
run; 
quit; 
系统 输出 结果 如 下 : 
cl=abcd < 


ncl- 唯 有 变化 才 是 永恒 <- 
vcl-abcd <- 
vcl-abcdefgh «- 
d-0.3333333333 
i-32767 


K 7-1 列 出 了 DS2 的 数据 类 型 系统 ， 包 括 字符 、 整 数 、 浮 点 数 、 日 期 /时 间 和 二 进 
制 5 大 类 型 ， 各 类 型 还 可 细 分 为 17 种 基本 数据 类 型 ， 其 中 类 型 CHAR 和 DOUBLE 对 应 
传统 DATA 步 中 的 字符 类 型 和 数值 类 型 。 
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字符 类 型 [4] 


表 7-1 DS2 的 数据 类 型 系统 
f o x 


定 长 字符 型 ，N 为 字符 长 度 ; 
它 与 传统 DATA 步 中 的 字符 型 变量 ， 使 用 LENGTH SN 语句 进行 定义 等 价 


定 长 字符 型 ，N 为 字符 长 度 ; 它 与 CHAR (N) 的 区 别 是 它 支持 UNICODE 多 
国语 言 字符 ， 根 据 平台 的 不 同 ， 每 个 字符 可 能 需要 2 字 节 或 4 字 节 进行 存储 


变 长 字符 型 ，N 为 最 大 字符 长 度 ; 如 果实 际 字符 数 小 于 N 则 变量 只 存储 实际 的 
字符 数 ， 并 不 像 前 面 定 长 字符 型 那样 总 为 当初 定义 的 宽度 
变 长 字符 型 ， 支 持 UNICODE 多 国语 言 字符 


相当 于 8 位 有 符号 整数 ， 可 表示 [-127 ~ 127] 区 间 的 整数 ; 
精度 为 3，SAS 内 部 使 用 4 字 节 存储 


DECIMAL (PS) 


相当 于 16 位 有 符号 整数 ， 可 表示 [732.767 ~ 32767] 区 间 的 整数 ; 

精度 为 5， SAS 内 部 使 用 5 字 节 存储 

相当 于 32 位 有 符号 整数 ， 可 表示 三 2.147.483.647 ~ 2,147.483.647] 区 间 的 整数 ; 
精度 为 10，SAS 内 部 使 用 10 字 节 存储 

相当 于 64 位 有 符号 整数 , 可 表示 [-9.223.372.036.854.775.807 ~ 9.223.372.036.854， 
775.807] 区 间 的 整数 ; 

精度 为 19，SAS 内 部 使 用 19 字 节 存储 


4 字 节 有 符号 单 精度 浮 点 数 ， 可 表示 区 间 为 土 3.4028235076646E-38 到 
+ 3.4028234663852E38 的 近似 实数 ， 用 于 存储 常规 实数 。 

8 字 节 有 符号 双 精 度 浮 点 数 ， 可 表示 区 间 为 土 2.22507E-308 到 土 1.797693E308 
的 近似 实数 ， 用 于 存储 较 大 实数 

它 与 传统 DATA 步 中 的 数值 型 变量 等 价 

有 符号 单 双 精 度 可 变 浮 点 数 ， 若 参数 P<25， 则 是 REAL 型 单 精度 浮 点 数 ， 否 则 
为 DOBULE 型 双 精 度 浮 点 数 ， 但 在 BASE 环境 中 运行 时 不 可 指定 P 值 

有 符号 定点 浮 点 数 ， 用 于 精确 实数 表示 ， 而 非 近 似 表示 。 其 中 精度 P 是 指 小 数 
点 前 后 总 的 有 效 位 数 ， 取 值 区 间 为 1-52， 标 度 S 是 指 小 数 点 后 的 最 大 位 数 ，S 
必须 小 于 等 于 P。 比 如 DECIMAL (9.2) 表示 9 位 有 效 数 字 ，2 位 小 数 ， 需 要 
注意 在 SAS 代码 中 用 常数 给 DECIMAL 赋值 只 能 精确 到 14 位 。 

DECIMAL (P.S) 也 可 写作 NUMERIC (P.S) 


日 期 时 间 类 型 [3] 


日 期 型 ， 以 格式 YYYY-MM-DD 指定 ， 其 中 YYYY 为 0001-9999，MM 为 01- 
12, DD 为 01-31; 比如 1975-09-24 


时 间 型 ， 以 格式 HH: MM: SSLNNNNNNNNN] 指定 ， 其 中 HH 为 00-23，MM 
为 00-59，SS 为 00-61 (ZEEE) ; N 可 选 ， 仅 用 于 高 精度 计时 之 用 ; 

若 数据 源 支持 ，SAS 可 用 了 值 来 指定 秒 的 精度 ， 最 大 值 为 9 表示 精确 到 10? 秒 ， 
即 纳 秒 


日 期 时 间 型 ， 以 格式 YYYYMM-DD: HH: MM: SS[:NNNNNNNNN] 指定 , 为 
DATE 和 TIME (P) 类 型 的 组 合 形式 


定 长 二 进 制 数据 ，N 为 最 大 字 节 长 度 ，N 为 必 选 参数 。 
如 果 二 进 制 内容 实 际 长 度 小 于 N， 该 变量 也 始终 占据 N 个 字 节 长 度 


VARBINARY (CN) 


变 长 二 进 制 数据 ，N 为 最 大 字 节 长 度 ，N 并 非 必 选 参数 。 
如 果 二 进 制 内 容 实 际 长 度 小 于 N， 该 变量 只 占 实际 所 需 的 字 节 长 度 
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上 面 17 种 基本 数据 类 型 仅 在 DS2 程序 运行 期 间 支 持 ， 变 量 一 旦 持久 化 写 入 SAS 数 
据 集 ，SAS 数据 集 仍然 只 支持 传统 DATA 步 的 定 长 字符 型 和 双 精 度数 值 型 两 种 基本 变量 
类 型 。 尽 管 如 此 ， 在 DS2 中 访问 第 三 方 关系 型 数据 库 的 数据 时 ， 尽 可 能 使 用 DS2 与 之 
对 应 的 数据 类 型 进行 交互 ， 避 免 因 系统 间 数 据 类 型 定义 不 同 出 现 精度 损失 的 问题 。 

关于 缺失 值 处 理 ，DS2 提供 两 种 模式 :SAS 模式 和 ANSI 模式 ， 它 们 由 PROC DS2 
过 程 步 选项 ANSIMODE 控制 。 默 认 DS2 将 不 存在 的 值 视 为 SAS 缺失 值 ， 但 如 果 启 用 
ANSIMODE, DS2 会 将 不 存在 的 值 当 作 null 值 。 默 认 的 SAS 模式 将 从 数据 表 中 读 取 不 
存在 的 值 会 当 作 SAS 缺失 值 ， 而 ANSI 模式 下 读 入 的 不 存在 的 值 会 被 转换 为 null 值 。 
如 果 SAS 字符 型 变量 仅 包含 空格 ， 在 SAS 模式 中 该 变量 值 会 被 当 作 缺失 值 看 待 ， 但 在 
ANSI 模式 中 该 变量 就 是 一 个 仅 包含 空格 的 非 空 字符 串 ， 而 不 是 null 值 。SAS 传统 上 的 
特殊 缺失 值 如 . 、.A 和 .Z 在 ANSI 模 式 中 都 被 当 作 null 值 看 待 而 不 加 以 区 分 。 考 察 程 
序 7-5， 结 果 显 示 只 有 句号 “.” 会 被 当 作 缺 失 值 看 待 。 

程序 7-5 ANSI 模 式 下 的 缺失 值 处 理 

Proc ds2 ansimode; 

data d / overwrite-yes ; 
declare char(32) c; 
method init(); 
A massing (0) then put 'blank is missing in sasmode'; 


if missing(c) then put 'dot is missing in ansimode'; 
end; 


7.1.2 程序 实体 作用 域 


作用 域 是 一 个 程序 实体 可 见 性 或 可 以 访问 的 作用 范围 。 在 传统 DATA 步 中 变量 是 
没有 作用 域 概念 的 ， 所 有 的 变量 在 当前 步 内 都 是 可 用 的 ， 它 们 在 PDV 中 也 是 扁平 存 
fi; 当 引 用 一 个 尚未 赋值 的 变量 时 ， 变 量 默认 返回 缺失 值 。 在 SAS 宏 代 码 中 可 以 使 用 
%GLOBAL 语句 和 %LOCAL 语句 来 限定 宏 变 量 的 作用 范围 ， 宏 函数 内 用 %LOCAL 语 
句 来 将 宏 变 量 定义 为 局 部 有 效 。 如 果 局 部 变量 与 全 局 变量 重 名 ， 位 于 宏 函 数 局 部 符号 表 
中 的 局 部 变量 具有 使 全 局 宏 变 量 不 可 见 的 遮蔽 效应 。 

在 DS2 中 ， 程 序 实体 的 作用 域 要 广泛 得 多 ， 涉 及 方法 、 函 数 、 数 据 、 标 签 、 程 序 变 
量 等 。 其 中 : 

CD 在 某 个 程序 块 中 ， 方 法 外 定义 的 变量 为 全 局 变量 ， 同 一 程序 块 内 的 所 有 方法 
都 可 引用 它 ; 方法 内 定义 的 变量 为 该 方法 的 局 部 变量 ， 只 能 在 该 方法 内 引用 它 。 比 如 
程序 7-6 中 init 方法 和 method2 方法 中 的 局 部 变量 是 相互 隔离 的 。 

程序 7-6 方法 内 的 变量 作用 域 仅 限 本 方法 内 


Proc ds2; 
data null ; 
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declare int var global; /* 数据 程序 的 全 局 变量 */ 
method init(); 
declare int var local; /* 方法 init 的 局 部 变量 1*/ 
end; 
method method2(); 
declare int var local; /* 方法 method? 的 局 部 变量 2*/ 
end; 
enddata; 
run; 
quit; 


(2) 数据 程序 〈 定 义 于 DAIA 和 ENDDATA 语句 之 间 ) : 该 程序 块头 部 定义 的 变 
量 在 数据 程序 内 全 局 有 效 ， 且 存活 于 该 数据 程序 执行 期 间 。 如 果 要 在 数据 程序 中 输出 变 
量 到 SAS 数据 集 ， 该 变量 必须 是 该 数据 程序 的 全 局 变量 。 其 中 SET 语句 引用 的 变量 默 
认 具 有 全 局 作用 域 ， 除 非 显 式 调用 DROP 语句 删除 变量 ， 否 则 数据 程序 中 的 全 局 变量 会 
自动 包含 在 数据 程序 的 PDV 中 。 

(3) 包 程 序 (定义 于 PACKAGE 和 ENDPACKAGE 语句 之 间 ) : 该 程序 块头 部 定 
义 的 变量 在 包 内 具有 全 局 效果 。 包 内 的 变量 不 会 被 自动 包括 在 调用 此 包 实 例 的 数据 程序 
的 PDV 中 ， 包 程序 的 全 局 变量 仅 在 DS2 包 程 序 实例 的 存活 期 间 可 用 。 

(4) 线程 程序 (定义 于 THREAD 和 ENDTHREAD 语句 之 间 ) : 该 程序 块头 部 定 
义 的 变量 在 当前 线程 程序 内 全 局 有 效 。 其 中 SET 语句 引用 的 变量 默认 具有 全 局 作用 域 ， 
除非 显 式 调用 DROP 语句 删除 变量 ， 和 否则 线程 程序 内 的 全 局 变量 会 包括 在 线程 输出 数 
据 集中 。 线 程 程序 的 全 局 变量 在 线程 实例 执行 期 间 可 用 ， 且 它们 可 被 传递 给 数据 程序 的 
SETFROM 语句 。 

(5) 方法 (定义 于 METHOD-END 语句 之 间 ) 是 数据 程序 、 线 程 程序 和 包 程 序 的 
组 成 部 分 。 方 法 名 默认 在 该 程序 块 内 全 局 有 效 。 如 前 所 述 ， 方 法 头 部 定义 的 变量 为 该 方 
法 的 局 部 变量 ， 仅 存活 于 该 方法 调用 期 间 ， 且 不 会 被 包含 在 数据 程序 块 的 PDV Po 


7.4.8 ”变量 数组 与 标准 数组 


除 基 本 变量 外 DS2 支持 两 种 类 型 数组 ; 变量 数组 和 标准 数组 ， 它 们 都 在 DS2 程序 
执行 期 间 可 用 。 其 主要 区 别 如 下 所 述 。 
(1) 变量 数组 使 用 VARARRAY 语句 来 创建 ， 必 须 在 全 局 作用 域内 定义 ， 它 与 传 
统 DATA 步 的 数组 性 质 完全 相同 ， 是 全 局 变量 的 一 种 临时 分 组 方式 ; 没有 显 式 指 定 映射 
变量 系列 时 ， 系 统 会 自动 创建 以 数组 名 和 数字 命名 的 一 系列 变量 ， 如 var_arrayl、var_ 
array2、 var array3 等 。 
(2) 标准 数组 使 用 DECLARE 语句 来 创建 ， 它 既 可 以 在 全 局 作用 域 中 定义 ， 也 可 
以 在 方法 的 局 部 作用 域 中 定义 。 标 准 数组 的 定义 包括 数组 名 、 数 据 类 型 、 数 组 下 标 以 及 
数组 长 度 等 信息 ， 它 与 传统 计算 机 编程 语言 C/C++ 和 JAVA 中 的 数组 性 质 完全 相同 。 
下 面 的 代码 使 用 VARARRAY 语句 创建 变量 数组 〈 见 程序 7-7) ， 它 会 自动 在 PDV 
中 创建 变量 VAR ARRAY1、VAR ARRAY2 和 VAR ARRAY3, 这 些 PDV 变量 也 会 自动 
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输出 到 结果 数据 集 MYDATA 中 ( 见 图 7-3) . 


程序 7-7 VARARRAY 变量 数组 示例 
Proc ds2; 
data mydata (overwrite=yes); 
vararray varchar(16) var array[3]; /* 自 动 映射 变量 并 输出 到 数据 集 */ 
method init(); 
var array: -('Alfred','Leon','Steve'); 
end; 
enddata; 
run; 
quit; 
proc print data-mydata;run; 


图 7-3 变量 数组 自动 输出 到 数据 集 


如 果 把 上 面 的 VARARRAY 改 为 DECLARE 来 创建 标准 数组 ， 则 默认 输出 数据 集中 
不 包含 任何 列 ， 原 因 就 是 标准 数组 并 不 在 PDV 中 创建 对 应 的 变量 。 为 了 能 够 将 标准 数 
组 的 元 素 输出 到 数据 集 ， 需 要 在 数据 程序 中 人 为 创建 对 应 的 全 局 变量 才能 输出 与 前 面 的 
例子 等 价 的 结果 (如 程序 7-8) 。 除 此 之 外 两 种 数组 在 其 他 方面 没有 什么 显著 区 别 。 


程序 7-8 ”标准 数组 示例 
Proc ds2; 
data mydata/ overwrite-yes ; 
declare varchar(16) ds? array[3]; 
declare varchar (l6) ds2 arrayl ds2 array2 ds2 array3; 


method init(); 
ds2 array: -('Alfred','Leon',' 'Steve'); 


ds2 arrayl-ds2 array[l]; 
ds2 array2-ds2 array[2]; 
ds2 array3-ds2 array[3]; 
end; 
enddata; 

run; 

quit; 

proc print data-mydata;run; 


7.1.4 系统 方法 与 用 户 自 定义 方法 


DS2 方法 是 DS2 程序 的 主要 组 成 部 分 ， 它 由 一 系列 可 执行 语句 组 成 ， 是 仅 次 于 程序 
块 的 编程 单元 。DS2 方法 本 身 在 程序 块 中 全 局 有 效 ， 可 分 为 系统 预定 义 方法 和 用 户 自 定 
义 方法 。DS2 方法 包含 参数 与 返回 值 ， 功 能 上 与 PROC FCMP 中 的 函数 大 体 相 同 ， 其 基 
本 语法 如 下 : 
METHOD METHOD NAME(DATATYPE ARG1, ,DATATYPE ARGN) RETURNS DATATYPE; 
DS2 STATEMENTS; 


RETURN VAR; 
END; 


SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


运行 如 下 样 例 代 码 ， 系 统 将 会 调用 自 定义 的 方法 Add 来 计算 结果 并 打印 〈 见 程序 7-9) o 


程序 7-9 Ds2 方 法 示例 ( 以 数据 程序 为 例 ) 
proc ds2 ; 
data mydata (overwrite-yes); 
declare double X Y; 
declare double total having label 'Total X*Y' format 5.1 ; 


method Add (double X, double Y) returns double; 
return (X*Y); 
end; 


method init(); 
X-100; Y-200; 
total=Add (X,Y); 
end; 
enddata; 
run; 
quit; 
proc print data-mydata label;run; 


结果 如 图 7-4 Brz 


Obs X Y Total X«Y 
1 100 200 300.0 


74 DS2 输出 数据 集 


PROC DS2 中 定义 的 方法 只 能 在 PROC DS2 的 程序 空间 内 调用 ， 不 能 在 传统 DATA 
步 中 直接 调用 PROC DS2 过 程 步 中 定义 的 用 户 方法 。 

e 系统 方法 

SAS 系统 为 DS2 数据 程序 和 线程 程序 预定 义 了 4 个 系统 回调 方法 ， 分 别 是 INIT、 
RUN. TERM 和 SETPARMS。 这 些 方法 在 DS2 数据 程序 和 线程 程序 执行 期 间 起 作用 ， 
它们 有 固定 的 调用 规则 ， 用 户 可 通过 编程 覆盖 这 些 系 统 方法 ， 实 现 不 同 阶段 完成 不 同 的 
功能 。DS2 包 程 序 不 包含 这 4 个 系统 方法 。 

(1) INIT( ) 方 法 : 初始 化 方法 , 没有 参数 与 返回 值 , 在 DS2 程序 启动 时 被 自动 调用 ， 
常用 于 DS2 主 程序 执行 前 的 初始 化 。 

(2) RUN( ) 方法 : 运行 方法 ， 没 有 参数 与 返回 值 ， 在 DS2 程序 的 INIT( ) 方法 执 
行 后 被 调用 ; 默认 情况 下 DS2 程序 从 输入 表 中 每 读 取 一 行 数据 就 会 自动 触发 调用 RUN 
方法 一 次 ， 这 与 传统 DATA 步 的 隐 性 循环 非常 类 似 。 通 常 DS2 数据 程序 的 INIT 或 RUN 
方法 会 包含 SET FROM 语句 用 于 指定 线程 分 配 ， 而 DS2 线程 程序 的 RUN 方法 则 用 来 实 
现 并 行 计算 逻 辑 。 

(3) TERM() 方法 : 终止 方法 ， 没 有 参数 与 返回 值 ， 在 DS2 数据 程序 或 线程 程序 
终止 时 自动 调用 ， 通 常用 于 程序 结束 前 的 资源 清理 。 注 意 该 方法 对 程序 全 局 变量 的 修改 
默认 不 会 被 输出 到 结果 数据 集 ， 因 为 此 时 系统 已 经 进入 终止 阶段 。 

(4) SETPARMS 方法 : 设置 参数 方法 ， 用 来 初始 化 线程 参数 ， 同 一 线程 程序 创建 
出 来 的 多 个 实例 会 使 用 相同 的 线程 参数 ， 这 部 分 将 在 后 面 进行 详细 讲述 。 
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用 户 也 可 以 重 载 4 个 系统 方法 来 实现 自 定义 计算 逻辑 ， 其 中 INIT/RUN/TERM 3 个 
系统 方法 都 提供 执行 入 口 。 程 序 7-10 重 载 DS2 系统 方法 NITO 来 实现 黄金 分 割 数列 生 
成 器 ， 其 中 数据 类 型 采用 的 是 有 符号 定点 浮 点 类 型 DECIMAL。 为 了 尽 可 能 生成 精确 表 
示 的 整数 序列 而 使 用 数据 类 型 DECIMAL (52.0 。 


程序 7-10 ”DS2 版 的 斐 波 那 契 数列 生成 器 
libname mylib "C:Vtemp"; 
proc ds2; 
data nylib.fbnc(overwrite-yes); 
declare decimal(52,0) x having label 'fbnc' format best32.; 
method init(); 
declare decimal(52,0) n xl x2; 
do n - 1 to 250; 
if n=1 or n-2 then x-1; 
else x= xl + x2; 


x2-x1; xl-x; 
output; 
end; 
end; 
enddata; 
run; 
quit; 
proc print data-mylib.fbnc (obs-250); 
run; 


上 面 的 代码 尽管 使 用 了 DECIMAL 数据 类 型 ， 但 只 能 计算 数列 的 前 250 个 数值 。 在 
计算 第 251 个 数 时 会 发 生计 算 溢出 。 其 中 前 78 个 为 没有 精度 损失 的 结果 数列 ， 但 从 第 
79 个 数 开始 出 现 计算 精度 损失 ;系统 从 第 154 个 开始 默认 使 用 科学 计数 法 表示 。 在 250 
个 相对 精确 表示 的 数值 中 ， 只 有 前 16 位 数字 是 相对 精确 的 。 不 管 是 利用 标准 的 DATA 
步 还 是 PROC DS2 步 ， 能 够 生成 的 黄金 分 割 数列 长 度 总 是 有 限 的 。 如 何 编程 突破 计算 机 
数据 类 型 的 存储 限制 ， 生 成 第 78 个 以 后 可 以 精确 表示 的 黄金 分 割 数列 呢 ? 此 时 需要 借 
助 数组 和 自 定义 运算 逻辑 才 可 实现 ， 可 以 参考 数据 结构 一 数组 一 章 的 内 容 。 

为 了 探索 DS2 各 方法 的 执行 时 序 问 题 ， 执 行程 序 7-11 DS2 数据 并 检查 输出 。 


程序 7-11 Ds2 数 据 程序 的 系统 方法 执行 时 序 演示 
Proc ds2; 
data d / overwrite-yes; /* 数 据 程序 */ 
dcl int count; 
method init(); 
count-l; 
put "> [Data Program' threadid '] INIT'; 
end; 
method run(); 
count-2; 
put '[Data Program' threadid '] RUN'; 
end; 
method term(); 
count-3; 
put '[Data Program' threadid '] TERM'; 
end; 
enddata; 
run; 
quit; 
proc print data-d;run; 
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系统 日 志 输 出 如 下 : 


[Data Program 0 ] INIT 
[Data Program 0 ] RUN 
[Data Program 0 ] TERM 


检查 发 现 输出 的 SAS 数据 集中 count — 2， 而 不 是 等 于 3。 原 因 是 TERM( ) 执行 于 
数据 输出 之 后 ， 因 此 TERM) 方法 内 执行 count=3 并 不 会 默认 输出 到 数据 集中 。 但 是 可 
以 在 TERM 方法 中 显 式 调用 output 语句 将 PDV 中 的 变量 输出 到 数据 集 。 

DS2 线程 程序 有 相同 类 似 的 执行 时 序 ， 但 启动 线程 需要 在 DS2 数据 程序 中 创建 线 
程 实例 触发 线程 执行 。 下 面 的 例子 综合 展示 了 线程 程序 的 执行 时 序 ， 其 中 DS2 线程 
程序 实例 的 SETPARMS 方法 可 以 设置 线程 参数 ， 而 SET FROM 语句 可 以 创建 多 个 线 
程 实例 , 各 线程 实例 是 并 行 执行 的 。 考察 如 下 例子 , 它 创建 了 线程 程序 TT 的 3 个 实例 CR, 
程序 7-12) . 

程序 7-12 Ds2 线 程 程序 的 系统 方法 执行 时 序 演示 

Proc ds2; 

/* 线 程 程序 */ 
thread t( varchar(20) paraml ) / overwrite-yes; 


dcl int threadid child; 
method init(); 


put ' [Thread Program' threadid '] INIT''(paraml-' paraml ')'; 
threadid child- threadid ; 
end; 


method run(); 


sleep (1000) ; /* 模 拟 执行 任务 */ 


put ' [Thread Program' threadid '] RUN'; 
end; 
method term(); 
put T [Thread Program' threadid '] TERM'; 
end; 
endthread; 


data d / overwrite-yes; /* 演 示 程 序 */ 

dcl thread t t1; 

dcl int count; 

method init(); 
put '[Data Program' threadid '] BEGIN'; 
tl.setparms('WORKER' ) ; /* 设 置 线程 参数 */ 
set from tl threads=3;/* 创 建 3 个 子 线程 */ 
put '[Data Program' threadid '] END'; 


end; 
enddata; 
run; 
quit 
执行 后 系统 输出 如 下 ， 说 明 各 线程 是 并 行 执行 ， 但 对 于 每 个 线程 还 是 按照 INIT 
>RUN->TERM 的 时 序 执行 。 


[Data Program 0 ] BEGIN 
[Thread Program 1 ] INIT (parami- WORKER ) 


[Thread Program 2 ] INIT (parami- WORKER ) 
[Thread Program 3 ] INIT (paraml= WORKER ) 
[Thread Program 3 ] RUN 
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[Thread Program 2 ] RUN 
[Thread Program 1 ] RUN 
[Thread Program 3 ] TERM 


[Thread Program 2 


] 
] 
] 
[Thread Program 1 ] TERM 
1 
[Data Program 0 ] END 


e 自 定义 方法 

3 种 DS2 程序 都 支持 创建 用 户 自 定义 方法 。 方 法 可 以 包含 参数 和 返回 值 ， 且 方法 参 
数 要 求 声 明 数 据 类 型 。 DS2 也 支持 方法 重 载 一 一 即 用 相同 的 方法 名 ， 但 根据 参数 类 型 列 
表 不 同 来 定义 不 同 的 方法 。 在 运行 的 时 候 ，SAS 会 根据 实际 参数 的 个 数 、 类 型 和 顺序 的 
不 同 自动 调用 与 其 对 应 的 DS2 方法 。 

如 果 参 数 个 数 匹配 ， 但 参数 类 型 不 匹配 ，DS2 会 试图 对 实际 参数 进行 自动 类 型 转换 
来 调用 函数 。 但 对 于 DAIE、TIME、TIMESTAMP、VARBINARY4 种 数据 类 型 ， 系 统 
不 做 默认 的 类 型 转换 ， 实 际 参数 必须 为 形式 参数 指定 的 数据 类 型 。 如 果 找 不 到 匹配 参数 
个 数 的 方法 ，SAS 会 抛 出 调用 错误 。 

DS2 方法 参数 在 定义 时 还 可 使 用 IN_OUT 修饰 符 进 行 修 饰 ， 表 示 该 参数 是 否 为 输 
入 输出 参数 。 输 入 ， 输 出 参数 在 方法 调用 结束 后 ， 方 法 中 对 参数 的 修改 会 被 传 回调 用 
方 。 这 一 机 制 为 我 们 在 单个 方法 中 返回 多 个 数据 或 者 复杂 数据 交换 提供 了 机 制 ， 类 似 于 
FCMP 函数 参数 的 OUTARGS 语句 功能 。 

DS2 方法 可 以 没有 返回 值 , 但 如 果 在 方法 定义 时 使 用 了 RETURNS 指定 返回 值 类 型 ， 
则 必须 在 方法 体内 使 用 RETURN 语句 返回 一 个 值 。 在 绝 大 多 数 编程 语言 中 ， 方 法 返回 
值 并 不 是 方法 签名 的 组 成 部 分 ， 因 此 不 要 试图 使 用 定义 名 称 和 参数 类 型 列表 相同 ， 但 返 
回 值 不 同 的 方法 。 

下 面 的 例子 展示 了 如 何在 方法 中 用 返回 值 表示 计算 是 否 成 功 ， 如 两 个 数 相 除 时 要 求 
分 母 不 得 为 0， 就 可 设计 返回 一 个 标志 量 〈 见 程序 7-13) o 

程序 7-13 ps2 方法 返回 标志 量 ， 利 用 输出 参数 返回 计算 结果 示例 

proc ds2; 

data null / overwrite-yes; 


method Div(double x, double y, in out double result) returns int; 
if y-0 then return 0; /* 返 回 0 表示 失败 -除数 为 零 不 能 相 除 */ 


result=x /y; ARARE result 中 */ 
return 1; /* 返 回 1 表示 成 功 */ 
end; 


method run(); 
declare double res; 
declare int rc; 


rc-Div(3, 4, res); 
if rc-1 then put res-; 


else put 'ERROR: 发 生 分 母 为 0 错误 ! '; 


rc-Div(3, 0, res); 
if rc-1 then put res-; 
else put 'ERROR: 发 生 分 母 为 0 错误 ! '; 
end; 
enddata; 
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run; 
quit; 


当 DS2 方法 跟 SAS 系统 函数 重 名 时 ，DS2 方法 在 DS2 程序 中 具有 优先 级 ， 而 
SAS 系统 函数 相当 于 被 遮蔽 起 来 。 此 时 如 果 要 调用 SAS 系统 函数 而 非 同 名 的 DS2 函 
数 , 需要 使 用 SYSTEM 包 前 绥 来 指明 调用 的 目标 为 SAS 系统 函数 。 比 如 下 面 的 例子 中 ， 
自 定义 DS2 方法 DATE 与 系统 函数 DATE 重 名 ， 就 需要 明确 使 用 SYSTEM 包 前 级 ( 见 


程序 7-14) 。 
程序 7-14 ”函数 隐藏 问题 与 解决 办 法 
proc ds2; 
data null ; 
method date(); /* 与 SAS 系统 函数 DATE() 重 名 */ 


declare int d; 
d-SYSTEM.date ); /* 调 用 系统 函数 需要 带 上 包 名 SYSTEM*/ 
put d= date9.; 

end; 

method run(); 
date (); 

end; 

enddata; 


7.2 数据 程序 


正如 前 面 一 些 例子 所 揭示 的 ，DS2 中 的 数据 程序 继承 了 传统 DATA 步 的 功能 ， 但 语 
法 上 它 必须 存在 于 PROC DS2 的 DATA---ENDDATA 之 间 。 主 要 区 别 是 DS2 数据 程序 具 
有 上 面 讲 到 的 变量 作用 域 和 系统 预定 义 方法 INIT. RUN 和 TERM 等 。 其 中 ，RUN 方法 
用 于 和 实现 传统 DATA 步 类 似 的 隐形 循环 机 制 。 语 法 上 DS2 看 起 来 比 传统 DATA 步 更 
烦琐 ， 但 它 提 供 更 强大 而 精细 的 控制 。 下 面 计 算 体质 指数 的 例子 〈 见 程序 7-150 展示 了 
DS2 数据 程序 的 基本 工作 机 理 ， 注 意 隐 性 循环 的 作用 。 


程序 7-15 Ds2 版 的 隐 性 循环 与 生成 计算 列 
data class; 

set sashelp.class; 
run; 


Proc ds2; 
data d / overwrite-yes; 
dcl double bmi; 
method run(); 
set class 
bmi-(weight * 0.4535924) / (height * 0.0254)**2; 
end; 
enddata; 
run; 
quit; 
proc print data-d;run; 
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需要 注意 的 是 ， 对 于 运行 在 IN-DATABASE 库 内 计算 环境 的 DS2 数据 程序 ，SAS 9.4 
中 非 SET FROM 语句 是 在 SAS 里 执行 的 ， 线 程 程序 的 输出 是 从 数据 库 抽取 数据 到 SAS 
环境 中 ; 而 SAS 9.4M1 为 充分 利用 计算 环境 的 并 行 处 理 机 制 ， 减 少数 据 传输 负载 ，SAS 
将 数据 程序 内 的 代码 部 署 运 行 在 一 个 数据 库 节点 的 并 行 处 理 单元 , 如 Teradata 的 AMP Eo 
此 时 ， 线 程 程序 是 通过 一 个 数据 库 临时 表 给 数据 程序 传 回 数据 。 


7.3 包 程 序 


DS2 包 程 序 中 的 包 (PACKAGE) 概念 类 似 于 传统 面向 对 象 编程 中 的 类 (CLASS) , 
用 于 将 变量 和 方法 进行 封装 打包 ， 形 成 一 个 可 重复 使 用 的 代码 复 用 单元 。DS2 包 可 以 持 
久 化 到 磁盘 上 , 然后 在 另 一 个 SAS 程序 中 调用 它 。 由 于 DS2 包 在 数据 分 析 领 域 的 特殊 性 ， 
它 并 不 需要 支持 继承 。 

下 面 的 DS2 包 程 序 定义 了 一 个 Person 包 ， 它 相当 于 面向 对 象 编程 中 的 一 个 类 C. 
程序 7-16) o 


程序 7-16 Ds2 版 的 Person% 
Proc ds2; /* 定 义 Person 类 */ 
Package Person / overwrite=yes; 
declare nvarchar(32) name sex; 
method setname( nvarchar(32) n); 
name-n; 
end; 
method getsex( ) returns nvarchar (32); 
return sex; 
end; 
method eat(); 
put name ' 
end; 
method sleep(); 
put name 'RBEX'; 
end; 
method work(); 
put name ' 工 作 '; 
end; 
method think(double x, double y); 
declare double z; 
z-sqrt (x*xt*y*y); 
put name ' 思 考 : 勾 ' x 'M' y '=> 弦 ' z; 
end; 
endpackage; 
run; 
quit; 


DS2 包 变 量 的 声明 与 DS2 变量 声明 类 似 ， 只 需要 将 数据 类 型 改 为 PACKAGE XXX 
即 可 。 但 包 变量 还 需要 使 用 new 关键 字 进 行 实例 化 ， 实 例 化 后 的 包 对 和 象 就 可 以 使 用 对 
象 成 员 访 问 符 “.” 号 来 访问 成 员 。 下 面 的 例子 演示 了 Person 包 的 定义 和 实例 化 过 程 ( 见 
程序 7-17) : 
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程序 7-17 Ds2 版 的 Person 类 的 实例 化 与 调用 示例 
proc ds2;/* 测 试 Person 类 */ 
data null / overwrite-yes; 
declare nvarchar(20) name sex; 
method init(); 
declare package Person p;/* 定 义 变量 p*/ 
p- new Person(); /* 实 例 化 变量 p*/ 
p.setname (' 里 昂 '); 
p.sex=' 男 '; 
p.eat(); 
p.sleep(); 
p.-work(); 
p.think(3,4); 


name-p.name; 
sex-p.getsex(); 
end; 
enddata; 
run; 
quit; 


系统 输出 : 

EE 吃饭 

ELE 睡觉 

gm 工作 

里 昂 思考 : 勾 3 股 4 => 弦 5 

包 实 例 的 作用 域 和 DS2 变量 的 作用 域 规则 相同 ，DS2 包 实例 也 可 作为 DS2 方法 的 
参数 或 返回 值 进行 传递 。 创 建 一 个 DS2 包 变量 可 以 采用 如 下 两 种 方式 之 一 。 

COD 先 定义 然后 用 _new_ 关键 字 实例 化 ， 实 例 化 时 可 使 用 [this] 修饰 来 指定 对 象 全 
局 有 效 。 


declare package mypack o; /* 先 定义 ， 后 实例 化 */ 
o- new mypack(); 


或 
o- new [this] mypack(); EEX, 后 实例 化 旦 使 之 全 局 有 效 */ 


(2) 定义 时 直接 实例 化 ， 与 DS2 变量 定义 的 区 别 就 是 需要 加 上 括号 。 
declare package mypack o() ; /* 定 义 的 时 候 直接 实例 化 */ 


与 传统 的 OOP 不 同 ， 不 要 试图 在 某 个 包 的 成 员 方法 中 实例 化 该 包 自 身 ， 否 则 
会 报 编译 错误 “Cannot instantiate package .… from within itself ”， 但 可 以 实例 化 非 自 
身 包 对 象 ， DS2 也 不 允许 在 包 方 法 中 试图 返回 当前 实例 的 引用 this。 

DS2 包 程 序 跟 DS2 数据 程序 和 线程 程序 的 不 同 之 处 在 于 ， 它 没有 3 个 系统 预定 义 方 
ik: INIT(). RUN() 和 TERM(). DS2 包 程 序 主要 是 用 来 实现 自 定义 函数 库 和 代码 重用 。 
下 面 的 DS2 示例 实现 了 复数 类 以 及 有 关 运 算 ( 见 程序 738) o 

程序 7-18 Ds2 版 的 “复数 类 ”的 实现 


proc ds2;/* 复 数 类 */ 
Package Complex / overwrite=yes; 
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declare double a b; 


method init (double a, double b) ;/* 初 始 化 复数 ， 类 似 于 构造 函数 */ 
this.a-a; this.b-b; 
end; 


method print(); /* 打 印 复数 */ 


put a "+ b 'i'; 
end; 


method norm() returns double; /* 计 算 复数 的 模 ， 即 复数 的 绝对 值 */ 
return SGIt(this-a ** 2 + this.b ** 2); 
end; 


method add(double a, double b); /* 复 数 四 则 运算 封装 : 基本 类 型 */ 
this.a = this.a + a; 
this.b = this.b + b; 

end; 

method sub (double a, double b); 
this.a = this.a - a; 
this.b - this.b - b; 

end; 

method mult(double a, double b); 
declare double aa bb; 
aa - this.a * a - this.b * b; 
bb = this.a * b * a * this.b; 
this.a-aa; this.b-bb; 

end; 

method div(double a, double b); 
declare double sum aa bb; 
sum- a ** 2 + b ** 2; 
aa = (this.a * a + this.b * b) / sum; 
bb = (this.b * a - this.a * b) / sum; 
this.a-aa; this.b-bb; 


method init (package Complex c); /* 复 数 四 则 运算 封装 : 复数 类 型 */ 
this.a-c.a; this.b-c.b; 

end; 

method print(package Complex c); /* 重 载 方法 print()*/ 
declare double a b; 


method add(package Complex c); /* 重 载 方法 add(double a, double b)*/ 
this.a = this.a + c.a; 
this.b = this.b + c.b; 


end; 

method sub(package Complex c); 
this.a — this.a - c.a; 
this.b = this.b - c.b; 

end; 


method mult(package Complex c); 
dcl double aa bb; 
aa — this.a * c.a — this.b * c.b; 
bb = this.b * c.a + this.a * c.b; 
this.a-aa; this.b-bb; 

end; 

method div(package Complex c); 
declare double aa bb sum; 
sum- csa ## 2 + ccb ** 2; 
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aa- (this.a * c.a + this.b * c.b) / sum; 
bb = (this.b * c.a - this.a * c.b) / sum; 
this.a -aa; this.b-bb; 
end; 
endpackage; 
run; 
quit; 


程序 7-19 则 是 该 复数 类 的 应 用 示例 : 


程序 7-19 Ds2 复 数 类 的 应 用 示例 
Proc ds2; 
data null ; 
method init();/* 测 试 Complex 类 */ 

declare package Complex cl(); 
declare package Complex c2(); 
declare double n; 
cl.a-3; cl.b-4; cl.print(); 
n = cl.norm(); put 'norm-' n; put ''; 


c2.init(6, 8); c2.print(); 
n = c2.norm(); put 'norm-' n; put ''; 


put 'Complex add'; 
c2.add( cl); c2.print(); 
n = c2.norm(); put 'norm-' n; put ''; 


put 'Complex mult'; 
cl.a-0; cl.b-1; cl.print(); 
cl.mult(cl); cl.print(); 
n-cl.norm(); put 'norm-' n; put ''; 
end; 
enddata; 
run; 
quit; 


系统 输出 : 


Si dX 
norm- 5 


6*8i 
norm- 10 


Complex add 
9d S 
norm- 15 


Complex mult 
tli 
Aroi 
norm= 1 


e 集成 性 

在 DS2 代码 中 可 以 调用 自 定义 的 FCMP 函数 ， 但 调用 时 需要 使 用 包 程 序 创建 
一 个 代码 封装 器 ， 然 后 再 通过 该 代码 封装 器 调用 对 应 的 FCMP 函数 。 完 整 的 例子 见 
程序 7-20。 
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程序 7-20 待 封装 的 自 定义 FCMP 函 数 示例 
libname mylib "C:\temp"; 
proc fcmp outlib-mylib.Funcs.math; 
function add(argl, arg2); /* 自 定义 FCMP 加 法 函数 */ 
ret=argl+arg2; 
return (ret); 
endsub; 
run; 


创建 FCMP 函数 库 MYLIB.FUNCS 完 后 , 如 果 需 要 在 传统 的 DATA 步 中 调用 该 方法 ， 
一 般 使 用 OPTIONS CMPLIB-WORK.FUNCS: 选项 来 指定 CMPLIB 即 可 。 但 在 DS2 中 ， 
需要 使 用 特殊 的 包 程 序 来 桥接 FCMP 代码 〈 见 程序 7-21) o 
程序 7-21 ”将 编译 的 FCMP 函数 包 封装 为 一 个 特殊 的 DS2 包 程 序 
Proc ds2; 
package mypack/overwrite-yes language-'fcmp' table='mylib.Funcs'; 


endpackage; 
run;quit; 


这 样 就 形成 了 一 个 特殊 的 DS2 包 mypack， 然 后 就 可 以 像 调用 其 他 DS2 包 一 样 调用 
FCMP 方法 〈 见 程序 7-22) 。 
程序 7-22 ”通过 Ds2 包 程 序 调用 自 定义 FCMP 函数 实现 
Proc ds2; 
data; 
declare double r; 
method init(); 
declare package mypack o(); /* 与 其 他 ps2 函数 调用 方式 没有 差异 */ 
r-o.add(100, 200); 
put r=; 
end; 
enddata; 
run; 
quit; 


DS2 除了 可 以 调用 FCMP 函数 和 例 程 外 , 还 可 通过 如 下 系统 预定 义 包 来 调用 系统 函数 。 
(1) HASH/HITER 包 : 提供 基于 键 值 对 的 高 效 数据 存储 和 查找 的 哈 希 表 功 能 。 
(2) MATRIX 包 : 提供 强大 灵活 矩阵 编程 访问 接口 ， 它 不 要 求 SAS/TML 软件 授权 
即 可 在 SAS 中 做 矩阵 运算 。 
(3) SQLSTMT 包 : 能 够 利用 FedSQL 语句 将 SQL 传 入 关系 型 数据 库 执 行 ， 并 访 
问 关系 数据 库 查 询 返回 的 结果 集 。 
(4) HTTP 包 : 构造 访问 HTTP Web 服务 的 HTTP 客户 端 
(5) JSON 包 : 用 于 创建 和 解析 JSON 文本 数据 
(6) LOGGER 包 : 访问 SAS 日 志 基础 设施 的 基本 接口 ， 包 括 读 / 写 /查找 等 。 
CD TZ 包 : 提供 国家 区 域 Locale 和 国际 化 时 间 / 日 期 值 有 关 的 处 理 。 
其 中 HASH/HITER ill MATRIX 包 在 分 析 实 践 中 比较 常用 ， 其 中 HASH/HITER 对 象 
在 传统 的 DATA 步 中 也 可 使 用 ，SAS 中 的 哈 希 对 象 以 及 遍历 器 在 数据 查找 变换 中 非常 有 
用 ， 它 支持 多 键 值 和 多 数据 查找 。 下 面 的 例子 〈 见 程序 7-23) 在 DS2 中 创建 联合 键 值 的 
哈 希 对 象 ， 其 数据 分 别 为 键 值 的 和 与 积 ， 然 后 查找 某 个 联合 键 值 对 应 的 数据 。 需 特别 注 
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意 SAS 的 哈 希 对 象 可 以 包含 复合 键 值 ， 且 可 有 多 个 值 对 象 。 


程序 7-23 Ds2Hash/HIter 对 象 使 用 示例 
proc ds2; 
data null ; 
declare double kl k2 dl d2 ; 
dcl package hash h(); 
dcl package hiter hi (h) :/* 关 联 遍 历 器 */ 


method init(); 
dcl int rc; 
/* 定 义 联合 键 值 的 哈 希 表 [kl, k2]-(dl, d2) */ 
h.defineKey('k1'); h.defineKey('k2' ); 
h.defineData('dl' ); h.defineData('d2'); 
h.defineDone () ; 


/* 初 始 化 Hash 表 ， 其 中 dl=kl+k2, d2-kl*k2 */ 
put 'Init Hash Object' 7 
do k1 = 1 to 3; 

do k2 = 1 to 3; 


dl = kl+k2; 

d2 = k1*k2; 

h.add(); 
end; 


end; 


/* 用 HIter 遍历 哈 希 表 ， 打 印 出 来 */ 
rc = hi.first(); 
do while(rc - 0); 
put dl= d2-; 
rc = hi.next(); 
end; 


/* 创 建 联合 键 值 [2, 3] 并 查找 */ 
k1-2; k2-3; 
h.find() ; 
puc"p" EY '" ES Jai d$ "y" d2 "pF 
end; 
enddata; 
run;quit; 


系统 最 后 输出 [2 ,3 ]={ 5 ,6} 


e 实例 

下 面 的 例子 〈 见 程序 7-24) 展示 了 如 何在 SAS 中 利用 和 矩阵 运算 包 MATRIX 实 
现 矩阵 乘法 运算 ， 它 是 线性 代数 运算 和 方程 求解 的 基础 。 使 用 DS2 矩阵 运算 包 不 需要 
SAS/IML 专业 矩阵 运 — 该 例子 执行 如 下 计算 : 


sd He te | 
E 4x14-5x246»3 4x4+5x5+6x6] (32 77, 


程序 7-24 ps248 Exi Ste Rl Dl 
proc ds2; 
data null ; 
/* 将 数组 格式 化 打印 输出 */ 


method print (double x[*], int r, int c); 


dcl int i j; 
dcl nvarchar(32) line; 


do i-0 to r-1; 


line-''; 

do j=1 to c ; 
if j»1 then line-line || ', '; 
line-line || put( x[i*c + j], 3.); 

end; 

put '[' line ']'; 

end; 
end; 


/* 程 序 入 口 : 矩阵 乘法 运算 */ 
method init(); 
dcl double aa[2,3] bb[3,2]; 
dcl package Matrix A B C; 
dcl double cc[2,2]; 


aa: -(1,2,3, 4,5,6); 
A- new Matrix(2,3); A.load(aa); 


bb: -(1, 4, 2, 5, 3, 6); 
B- new Matrix(3,2); B.load(bb); 
C= A.mult (B); 


C.toArray(cc); 


put 'Atrix A'; print(aa, dim(aa,1), dim(aa,2) 


) 7 


put 'Atrix B'; print(bb, dim(bb,1), dim(bb,2) ); 
put 'Atrix C'; print(cc, dim(cc,1), dim(cc,2) ); 


end; 

enddata; 
run; 
quit; 
系统 输出 : 
Matrix A 
[ l, 2, 3 ] 
E 8 5, 6] 
Matrix B 
[ 1, £] 
[ 2, 5] 
[ 3, 6] 
Matrix C 
[ 14 32] 
[ 32, 717 ] 


7.4 线程 程序 
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DS2 通过 线程 程序 THREAD... ENDTHREAD) 实现 多 线程 支持 ， 它 能 实现 对 数据 
表 中 的 不 同 观测 ， 并 发 执行 用 户 定义 的 处 理 逻 辑 。 在 传统 单机 环境 中 SAS 是 以 单 进程 方 
式 执行 的 ， 后 来 随 着 引入 THREAD KERNEL 技术 (简称 TK 技术 ) ，SAS 才 支 持 多 用 


户 服 务 器 模式 进行 多 线程 并 发 处 理 。 
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由 于 SAS 是 专门 面向 数据 分 析 而 设计 的 高 级 语言 ， 因 此 DS2 多 线程 的 设计 思路 依 
然 是 围绕 数据 分 析 展 开 。DS2 为 我 们 封装 了 线程 处 理 的 底层 细节 ，SAS 程序 员 只 需要 考 
虑 如 何 分 区 数据 ， 处 理 数据 即 可 。DS2 线程 程序 有 两 种 处 理 模式 : 

COD 作为 程序 运行 : 输入 数据 为 来 自 数 据 库 表 的 记录 或 者 DS2 程序 生成 的 记录 ; 
输出 数据 为 数据 库 表 ， 或 者 返回 主 调 程序 的 数据 行 。 

COD 作为 线程 运行 输入 数据 为 来 自 数据 库 表 的 记录 ， 每 个 线程 读 取 数据 然后 执 
行 必要 的 取 子 集 、 求 值 等 操作 然后 将 结果 返回 主 调 程序 。 

下 面 的 DS2 代码 定义 了 一 个 最 简单 的 线程 程序 〈 见 程序 7-25) ， 并 创建 3 个 线程 
实例 并 行 执行 。 


程序 7-25 Ds2 线 程 程序 创建 3 个 实例 
Proc ds2; 
thread t / overwrite=yes; 
declare char (32) c; 
method init (); 
put 'Hello DS2 Thread' _threadid_; 
end; 
endthread; 
run; 
quit; 


proc ds2; 
data _null_; 
declare thread t tl; 
method init (); 
set from tl threads-3; 
end; 
enddata; 
run; 
quit; 


其 输出 结果 为 


Hello DS2 Thread 0 
Hello DS2 Thread 1 
Hello DS2 Thread 2 


为 了 说 明 SAS 多 线程 处 理 机 制 ， 下 面 举 一 个 完整 的 例子 来 说 明 SAS 是 如 何 实现 海 
量 数据 并 行 计 算 的 〈 见 程序 7-26) 。 首 先 使 用 传统 的 DATA 步 模拟 生成 2017 年 最 新 的 
除 港澳 台 外 的 中 国 大 陆 总 人 口 13.5 亿 人 的 年 龄 数据 ， 存 入 SAS 数据 集 文 件 D， 系 统 耗 
时 约 61 秒 ， 生 成 的 文件 约 10Gb。 
程序 7-26 生成 1-100 均匀 分 布 的 13 亿 人 的 年 龄 数据 
data d; 
do i = 1 to 1355692576; 
x= ceil(rand("UNIFORM")* 100); /* 为 简化 假定 为 均匀 分 布 ， 实 际 应 为 指数 分 布 */ 
7. osa 
drop i; 
如 果 采 用 等 价 的 DS2 多 线程 程序 在 单机 上 生成 测试 数据 ， 系 统 耗 时 将 是 LT E. E 
因 是 在 对 称 多 处 理 器 SMP 环境 上 ， 多 个 线程 对 单个 文件 进行 写 操作 并 不 能 改进 性 能 ， 
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反而 可 能 因 线 程 调度 和 文件 写 冲突 而 降低 性 能 。 因 此 要 根据 计算 架构 的 实际 需求 来 编写 
SAS 多 线程 程序 。 在 分 布 式 海量 并 行 MPP 计算 环境 上 ， 由 于 没有 文件 写 冲 突 问 题 和 共 
享 锁 问 题 ， 因 此 生成 分 布 式 分 区 文件 会 比 SMP 架构 性 能 好 得 多 。 
DS2 多 线程 在 读 取 数 据 进 行 分 析 方面 具有 巨大 的 优势 。 比 如 需要 统计 全 国 13.5 亿 人 
的 平均 年 龄 ， 可 采用 如 下 传统 的 DATA 步 程序 实现 〈 见 程序 7-27) 。 
程序 7-27 MDATA 步 计算 平均 年 龄 
data c; 
set d end=last; 
epo then do; 
avg-sum/ N ; 
output; 
end; 


keep sum avg; 
run; 


在 普通 单机 环境 上 运行 该 程序 计算 13.5 亿 人 的 年 龄 总 和 为 68463510554 岁 ， 平 均 年 
龄 为 50.50 岁 。 系 统 处 理 实际 耗 时 为 40.28 秒 ，CPU 时 间 为 38.59 秒 。CPU 时 间 为 程序 
指令 所 消耗 的 总 CPU 时 钟 数 , 是 计算 负载 的 指示 , 在 多 核 环 境 下 它 与 实际 时 间 可 能 不 同 。 
如 果 用 PROC MEANS 过 程 步 进行 计算 〈 见 程序 7-28) ， 发 现 系统 实际 耗 时 44.67 W, 
跟 上 面 的 程序 差不多 ， 但 CPU 时 钟 消耗 为 2 分 18.53 秒 耗 时 有 显明 增长 ， 这 可 能 与 SAS 
过 程 步 PROC MEANS 的 具体 实现 方式 有 关 。 

程序 7-28 用 PROC MEANS 计算 平均 年 龄 


proc means data-d sum mean; 
run; 


下 面 编写 多 线程 DS2 程序 〈 见 程序 7-29) 来 完成 同样 的 功能 ， 首 先 用 1 个 线程 模 
式 运行 ， 理 论 上 耗 时 应 该 与 DATA 步 等 价 。 


程序 7-29 ”用 DS2 线程 程序 计算 平均 年 龄 ( 线程 数 指定 为 1 ) 
Proc ds2; 
thread thread a / overwrite=yes; 
dcl double id cnt sum; 
keep id cnt sum; 
method run(); 
set d; 
sum + x; /* 线 程 体 执行 局 部 数据 加 总 */ 
end; 
method term(); 
id = threadid ; /* 线 程 编号 , 0 到 n-1 */ 
cnt = N -1; /* 当 前 线程 处 理 的 记录 数 */ 
output; 
put ' 线 程 [' threadid '] 数据 =' cnt '&il-' sum; 
end; 
endthread; 
run; 
quit; 


proc ds2; 
data c2 / overwrite-yes; 
dcl thread thread a t(); 
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dcl double cnt all avg all sum all; 
keep cnt all sum all avg all; 
method run(); 
set from t threads-1; /* 指 定 线程 数量 为 1， 用 1 个 线程 运行 该 程序 */ 
sum all + sum; 
cnt all + cnt; 
end; 
method term(); 
avg all = sum all / cnt all; 
output; 
put ' 线 程 *[' threadid '] 数据 =' cnt all ' 合 计 =' sum all ' 
均值 =' avg all; 


end; 
enddata; 

run; 

quit; 

系统 输出 日 志 如 图 7-5 所 示 。 
线程 [1] = 1355692576 合计 = 68460496318 

*[ 9] * 1355692576 = 685604596318 均值 = 50.25985503991767 

NOTE: Execution succeeded. One row affected- 
3507 quit; 


NOTE: "PROCEDURE DS2” 所 用 时 间 【总 处 理 时 间 ) : 
SW E 
CPU E^ m 


图 7-5 单个 线程 执行 结果 


运行 实际 时 间 为 39.08 秒 ，CPU 时 间 为 50.40 秒 。 单 线程 处 理 13 亿 行 数据 与 前 面 的 
传统 DATA 步 程序 40.28s 差不多 ， 而 CPU 时 间 从 38.59 秒 增 大 到 52.04 秒 ， 说 明 多 线程 
程序 增 大 了 线程 资源 的 开销 时 间 。 如 果 我 们 把 上 面 程序 的 线程 数 提高 到 4 或 更 高 ， 如 5 
个 线程 时 ， 则 该 程序 在 同样 的 环境 上 实际 消耗 时 间 将 会 明显 缩短 到 约 13 秒 ( 见 图 7-6) 。 


= 277553152 合计 = 14015803394 

= 267384968 合计 = 13598310777 

= 268779520 合计 = 13573377410 
St 


= 266231808 = 13444819752 

= 275823136 = 13928184985 

数据 = 1355692576 合计 = 68460496318 均值 = 50.4985503991767 
NOTE: Execution succeeded. One row affected. 


3681 quit; 

NOTE: "PROCEDURE DS2” 所 用 时 间 《总 处 理 时 间 ) : 
SUUM 
CPU 时 间 ze. 99 
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图 7-6 五 个 并 发 线程 执行 结果 


从 结果 可 以 看 出 ，DS2 程序 5 个 线程 并 行 执行 使 运行 的 实际 时 间 从 40.64 秒 缩短 到 
13.29 秒 ， 速 度 提高 了 3 倍 。 这 还 仅仅 是 在 普通 台式 机 上 BASE 环境 中 的 表现 ， 在 分 布 
式 并 行 计算 环境 MPP 上 ， 如 SAS 库 内 计算 或 SAS 内 存 计算 环境 上 ， 其 并 发 性 能 将 随 着 
节点 规模 的 增 大 而 提升 ， 直 至 将 对 整个 10 亿 行 数据 的 计算 时 间 控 制 在 1 秒 以 内 。 

通常 在 SMP 环境 上 DS2 的 线程 数 并 不 是 越 高 越 好 ， 而 是 要 根据 具体 的 计算 环境 和 
数据 负载 情况 合理 设置 ， 通 常 在 4-8 个 线程 数 即 可 获得 非常 好 的 性 能 提升 。 图 7-7 为 笔 
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者 在 普通 SMP 环境 上 运行 程序 所 消耗 的 实际 时 间 / CPU 时 间 和 并 发 线程 数 〔 横 坐标 》 


的 关系 图 。 
45 
40 mE 
35 
25 
20 = = = 
15 
10 


123456 78 91011 12 13 14 15 16 32 64 128 256 
一 一 实际 时 间 CPU 时 间 
图 7-7 实际 时 间 / CPU 时 间 和 并 发 线程 数 的 关系 


默认 情况 下 ， 如 果 需 要 处 理 的 数据 行 数 比 较 少 ， 即 使 指定 了 DS2 的 并 行 处 理 线程 
数 ，SAS 也 会 使 用 单个 线程 进行 处 理 。 经 笔者 验证 ， 实 际 上 如 果 观 测 数 〈 记 录 行 数 ) 小 
于 16384 CH] 16k) 时 ， 则 SAS 通常 不 会 真正 启动 多 线程 去 执行 ， 因 为 线程 资源 本 身 也 
是 需要 额外 开销 的 。 

如 果 我 们 希望 自己 控制 每 个 线程 的 计算 负载 ， 也 就 是 说 按照 用 户 希 望 的 方式 让 每 个 
线程 处 理 自己 应 该 处 理 的 那 部 分 数据 , 如 线程 1 处 理 男性 的 数据 , 线程 2 处 理 女性 的 数据 。 
FHL SASHELPCLASS 数据 为 例 ， 笔 者 设计 了 两 个 线程 分 别处 理 男女 性 别 的 数据 〈 见 
程序 7-30) ， 实 践 中 对 于 海量 数据 的 任务 划分 会 更 加 复杂 。 


程序 7-30 ”自己 控制 线程 负载 示例 
data myclass; 
set sashelp.class; 
run; 
proc ds2; 
thread thread a / overwrite-yes; 
dcl double cnt sum avg; 
keep cnt sum; 
method init(); 
put “线程 ' threadid “启动 '; 
end; 
method run(); 
set myclass; 
by sex; /* 按 照 myclass 中 的 sex 变量 分 区 */ 
sum + age; 
put “线程 ' threadid ' 处 理 ' sex= age- name=; 
end; 


method term(); 
cnt = N -1; 
if cnt»0 then avg = sum / cnt; 
output; 
put “线程 ' threadid ' 结 束 ' cnt- sum- avg- 4.1; 
end; 
endthread; 


run; 
quit; 
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数据 和 线程 程序 都 已 经 准备 完毕 ， 我 们 可 以 编写 如 下 数据 程序 〈 见 程序 7-31) 
启动 两 个 线程 实例 进行 处 理 ， 线 程 处 理 结 果 的 合并 是 在 数据 程序 的 TERM( ) 方法 中 
进行 的 。 


程序 7-31 ”创建 两 个 线程 实例 进行 处 理 ， 结 果 输 出 到 c2 数据 集中 
Proc ds2; 
data c2 / overwrite=yes; 
dcl thread thread a t(); 
dcl double cnt all avg all sum all; 
keep cnt all sum all avg all; 
method run(); 
set from t threads=2;/* 为 每 个 sex 分 配 一 个 线程 */ 
sum all + sum; 
cnt all + cnt; 
end; 
method term(); 
avg all = sum all / cnt all; 
output; 
put “线程 ' threadid “结束 观测 =' cnt all ' 合 计 =' sum all ' 均 值 
-' avg all 4.1; 
end; 
enddata; 
run; 
quit; 


输出 结果 如 图 7-8 所 示 。 


o npe uc T 


RR Age=15 Name: 
Sex= Age=12 Name- 约 
Sex- hge-13 Mame- 
Sex- hge-16 Name-: 
Sex Age-12 Mame- 
Sex- Age-15 Mame- 
sex: Age=14 Name: 由 


fige-13 Name- 


eei hge-11 zu 


cnt=9 sun-119 aug-13.7 
cnt-10 sum-134 aug-13.^ 
2 观测 - 19 合计 - 253 均值 ~- 13.3 
D Execution succeeded. 0ne row affected. 
quit 


NOTE: “PROCEDURE DS2” 所 用 时 闻 《总 处 理 时 间 ): 
Ei ap 


834 


Rm DOA 
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图 7-8 自 定义 控制 线程 负载 输出 


从 上 面 的 例子 可 以 看 出 SAS 为 多 线程 环境 下 自 定义 计算 负载 提供 了 灵活 的 控制 接 

合理 利用 BY 变量 或 数据 分 区 ，DS2 线程 程序 能 够 优化 各 个 线程 的 计算 负载 ， 从 而 
合理 分 配 并 行 计算 负载 。 根 据 木 桶 原理 ， 执 行 最 慢 的 那个 线程 实例 是 并 行 计算 中 优化 总 
计算 时 间 的 关键 。 


代码 组 织 


大 型 分 析 项 目 需要 多 人 通力 合作 或 者 分 模块 进行 编写 ， 这 样 才 符合 化 整 为 零 ， 分 解 
复杂 问题 然后 各 个 击破 的 思路 。 在 SAS 中 代码 复 用 可 以 是 源 代 码 文件 的 静态 复 用 ， 也 可 
以 是 前 面 讲 到 的 FCMP 函数 库 或 SAS 宏 函 数 复 用 。 其 中 静态 代码 复 用 主要 通过 系统 宏 
%INCLUDE 实现 。 


8.1 静态 文件 包含 


系统 宏 %INCLUDE 用 于 告诉 SAS 编译 器 将 整个 外 部 文件 的 内 容 包含 到 当前 代码 中 ， 
与 当前 程序 代码 一 起 编译 执行 。 编 译 器 会 自动 将 该 文件 的 内 容 当 作 当 前 代码 文件 的 一 部 
分 , 放 到 缓冲 区 中 供 后 续 编译 运行 使 用 。 其 中 ENCODING 选项 可 用 于 指明 代码 文件 编码 ， 
其 基本 语法 如 下 。 


*INCLUDE source «/«ENCODING-'encoding-value'» <host-options> > ; 
假如 我 们 编写 了 一 个 准备 数据 的 源 文件 Ci\temp\initdata.sas 如 下 〔 见 程序 8-1) : 


程序 8-1 准备 数据 的 SAS 程 序 
data mydata; 
input x @@; 
infile datalines; 
datalines; 
FP TOSa 
6810 
run; 


这 时 我 们 需要 在 另 一 个 SAS 程序 printdata.sas( 见 程序 8-2) 里 使 用 同样 代码 来 准备 
数据 ， 则 我 们 可 以 使 用 %INCLUDE (可 缩写 为 ANC) 来 直接 包含 它 ， 宛 如 那些 代码 就 
是 当前 文件 的 一 部 分 ， 这 样 程序 员 就 不 必 复 制 代 码 到 当前 源 文件 中 来 。 

程序 8-2 ”包含 外 部 源 代码 示例 


%include "C:\temp\initdata.sas"; 
proc print data=mydata; run; 


程序 8-2 输出 结果 如 图 8-1 所 示 。 
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图 8-1 %INCLUDE 代码 包含 


然而 , SAS 里 的 %INCLUDE 宏 与 C/C++ 的 预 处 理 宏 include 不 同 , 其 主要 特征 如 下 : 

(1) %INCLUDE 语句 是 一 个 SAS 系统 宏 ， 它 可 以 出 现在 源 文件 中 除了 DATA 步 
DATALINES 或 DATALINES4 语句 后 的 数据 行 以 外 的 任何 位 置 。 

(2) %INCLUDE 语句 所 包含 的 外 部 源 代码 文件 中 ， 也 可 以 出 现 %INCLUDE 语句 
包含 另外 一 个 源 代码 文件 。 这 种 包含 机 制 可 以 实现 多 层次 的 树 状 SAS 代码 组 织 ， 但 应 避 
免 循 环 包含 。 

(3) %INCLUDE 语句 是 全 局 的 非 执行 语句 ， 所 以 不 要 企图 在 DATA 步 的 条 件 分 
支 逻 辑 中 使 用 %INCLUDE 语句 来 实现 条 件 包含 ， 只 能 在 SAS 宏 中 用 AF 语句 实现 条 
件 包含 。 

我 们 也 可 以 采用 filename 语句 预先 定义 文件 引用 ， 然 后 再 用 %INCLUDE 宏 包 含 该 
文件 引用 来 包含 文件 〈 见 程序 8-3) 。 

程序 8-3 ”包含 用 lename 指向 的 源 代码 示例 

filename initdata "C:\temp\initdata.sas" 


*include initdata; 
proc print data-mydata;run; 


默认 情况 下 并 不 会 显示 被 包含 文件 的 源 代 码 ， 如 果 我 们 需要 在 SAS 日 志 中 显示 被 包 
含 文件 的 源 代 码 ， 可 使 用 /source2 选项 启用 〈 见 程序 84) ;然而 打开 此 选项 不 会 显示 
被 包含 代码 中 的 数据 行 。 


程序 8-4 启用 sOURCE2 选项 以 显示 源 代码 
sinclude "C:\temp\initdata.sas" /source2; 


运行 上 面 的 代码 后 ， 在 输出 日 志 中 可 以 看 到 如 下 内 容 : 


NOTE: gsINCLUDE (KF 1) 文 件 C:\temp\initdata.sas 是 文件 
C:\temp\initdata.saso 

128 + data mydata; 

129 + input x 86; 

130 + infile datalines; 

131 * datalines; 
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当 我 们 需要 包含 多 个 文件 时 ， 可 以 使 用 空格 或 逗号 将 多 个 文件 同时 包含 进来 ， 比 如 : 
$include "C:\temp\initdata.sas","C:\temp\printdata.sas"; 


如 果 操 作 系统 支持 聚合 存储 形式 〈 如 文件 目录 ) 的 文件 容器 ， 我 们 也 可 以 使 用 
filename 语句 指向 该 目录 ， 然 后 用 括号 将 容器 中 的 多 个 文件 名 以 空格 或 逗号 分 隔 的 形式 
包含 进来 ， 这 样 就 程序 员 就 不 必 为 每 个 文件 提供 全 路 径 信息 。 比 如 下 面 的 例子 将 C:\temp 
中 的 两 个 文件 包含 进来 。 


filename initdata "C:\temp"; 
*include initdata(initdata.sas printdata.sas); 


注意 : dE Base SAS 图 形 交 互 界 面 的 命令 输入 框 中 可 使 用 %INCLUDE 命令 或 
RECALL 命令 来 包含 SAS 程序 或 者 重新 召回 上 次 提交 的 源 代 码 ， 其 中 命令 输入 框 中 可 
直接 调用 已 经 解析 的 宏 函 数 ， 它 们 是 图 形 交 互 界 面 的 便捷 操作 功能 。 


8.2 程序 中 动态 扩展 代码 


在 SAS 程序 中 ， 不 但 可 以 直接 写 代码 ， 也 可 以 将 字符 串 文 本 当 作 源 代码 去 动态 编 
译 执行 。CALL EXECUTE 例 程 的 功能 就 是 将 其 参数 argument 解析 为 SAS 源 代码 ， 
然后 在 本 DATA 步 内 或 本 DATA 步 运行 结束 后 执行 解析 出 来 的 源 代 码 。 其 基本 语法 
如 下 : 


CALL EXECUTE (argument); 


其 中 参数 argument 可 以 是 一 个 字符 串 常量 ， 或 者 是 包含 宏 调用 或 SAS 语句 的 文 
本 表达 式 ， 也 可 以 是 一 个 字符 型 变量 ， 或 是 其 他 可 以 被 解析 为 宏文 本 表达 式 或 SAS 语句 
的 字符 型 表达 式 。 对 于 使 用 单 引 号 和 双 引 号 括 起 的 参数 ， 在 解析 运行 方面 具有 不 同 的 行 
为 : 如 果 参 数 是 由 双 引 号 括 起 来 的 ， 则 参数 会 在 当前 DATA 步 编译 之 前 就 进行 解析 ; 如 
果 参 数 是 由 单 引号 括 起 来 的 ， 则 参数 会 在 程序 运行 期 间 才 解析 。 因 此 ， 参 数 中 包含 的 宏 
代码 在 这 两 种 情况 下 具有 不 同 的 执行 逻辑 ( 见 程序 8-5) 。 


程序 8-5 CALL EXECUTE 单 引号 字符 参数 
$let B-1; 
data null ; 
put "Before Invoke"; 
tabname-"sashelp.prdsale"; 
v-synget ("B") ; 
put v=; 
/* 对 宏 变 量 进 行 赋值 ， 会 立即 执行 后 执行 下 一 步 */ 
call execute( "$let B-2;' ); 
v=symget ("B") ; 
put v=; 
put "After Invoke"; 
run; 


EE SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


系统 输出 结果 为 


Before Invoke 
v-l 

v-2 

After Invoke 


但 如 果 参 数 是 使 用 双 引 号 括 起 来 的 ， 即 代码 改 为 call execute ("slet 8-2; "): 则 系统 
输出 将 会 不 同 ， 运 行 结 果 中 两 个 v 都 等 于 2， 说 明 双 引号 括 起 来 的 参数 确 是 在 DATA 步 
编译 之 前 就 被 解析 执行 了 ， 才 导致 symget("B") 输出 发 生变 化 。 

如 果 CALL EXECUTE 子 例 程 的 参数 中 既 包含 SAS 宏 代 码 ， 也 包含 非 宏 的 SAS fX 
码 时 ，SAS 编译 器 将 会 如 何 处 理 呢 ? 参考 如 下 代码 〈 见 程序 8-6) 。 


程序 8-6 CALL EXECUTE 字符 参数 包括 非 宏 SAS 代码 
$1et B-1; 
data null ; 
put "Before ZInvoke"; 
tabname-"sashelp.prdsale"; 
v-symget ("B"); 
put v=; 
call execute (' 
%$let B-2; 
data null ; 
put "Second DATA step"; 
b-symget ("B"); 
put b=; 
run; 
“hz 
v=symget ("B"); 
put v=; 
put "After Invoke"; 
run; 


此 时 系统 输出 结果 如 下 : 


Before Invoke 

v-l 

Mec DATA step 

b-2 

说 明 %LET B=2: 是 执行 到 CALL EXECUTE 时 才 执 行 ， 而 参数 中 解析 出 来 的 非 宏 
SAS 代码 则 被 延迟 到 当前 DATA 步 运行 结 束 后 才 调 用 。 但 如 果 我 们 把 CALL EXECUTE 


参数 的 单 引号 和 双 引 号 对 调 一 下 ， 结 果 会 是 什么 呢 ? 


call execute( "$1et B-2; data null ; put 'Second DATA step'; 
b-symget('B'); put b-; run;" ); 


则 系统 输出 v 三 全 部 为 2， 原因 是 参数 中 的 %LET B-2; 语句 在 进入 主 DATA 步 之 前 
就 被 执行 了 ， 而 参数 解析 出 的 DATA 步 SAS 代码 则 被 延迟 当前 步 运行 结束 时 才 调 用 。 
这 种 行为 说 明 不 管 CALL EXECUTE 的 参数 是 单 引号 还 是 双 引 号 括 起 来 的 ， 其 生成 的 非 
宏 SAS 代码 都 是 被 延迟 到 该 DATA 步 运行 结束 之 后 执行 的 。 在 程序 8-7 中 不 管 execute 
参数 是 单 引 号 还 是 双 引 号 括 起 来 ，PROC PRINT 步 总 是 被 延迟 执行 。 
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程序 8-7 CALL EXECUTE 执行 时 序 控制 
$macro printds; 
proc print data-sashelp.class; 
run; 
Smend; 
data null ; 
put "Before Invoke"; 
call execute("$printds"); /* '$printds' 亦 同 */ 
put "After Invoke"; 
run; 


上 面 的 代码 在 逻辑 上 等 价 于 程序 8-8 的 执行 时 序 : 


程序 8-8 等 价 的 执行 时 序 
data null ; 
put "Before Invoke"; 
put "After Invoke"; 
run; 
proc print data-sashelp.class; 
run; 


除了 常量 字符 串 ，CALL EXECUTE 也 可 接受 字符 型 变量 作为 参数 , 如 程序 8-9 所 示 。 


程序 8-9 ”字符 变量 作为 CALL EXECUTE 参数 
data null ; 
put "Before Invoke"; 
code-'$printds;'; 
call execute (code); ”/* 字 符 型 变量 作为 参数 */ 
put "After Invoke"; 
run; 


更 多 的 时 候 ， 我 们 会 将 字符 型 表达 式 作为 参数 ， 实 现在 DATA 步 中 动态 生成 参数 调 
用 某 个 宏 函 数 ， 实 现 根据 某 个 数据 集 的 内 容 动态 调用 宏 函 数 的 效果 。 下 面 笔 者 设计 的 几 
行 代码 〈 见 程序 8-10) 可 将 当前 SAS 系统 逻辑 库 SASHELP 中 上 百 个 数据 集 的 描述 信息 
打印 出 来 ， 相 当 于 将 某 个 数据 库 中 所 有 的 表 结 构 给 打印 出 来 了 ， 技 巧 就 是 对 输入 数据 集 
SASHELP.VTABLE 的 每 一 行 记录 调用 一 次 SAS "E. 


程序 8-10 ”对 数据 表 中 的 每 一 行 数据 执行 某 个 Sas 宏 实现 处 理 控制 
%macro printcnt (ds-sashelp.class); 
proc contents data-&ds; 
title &ds; 
run; 
Smend; 
data null ; 
set sashelp.vtable; 
if memtype-"DATA" AND libname-"SASHELP" then do; 
call execute( '$printcnt(ds-' || trim(left(libname)) || '.' || 
trim(left(memname)) || ');' ); 
end; 
run; 


8.3 动态 执行 外 部 命令 


动态 执行 外 部 命令 包括 全 局 义 语 句 、CALL SYSTEM 例 程 和 SYSTEM 函数 、%SYSEXEC 
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宏 语 句 3 种 方法 。 
1.X 全 局 语句 


在 SAS 程序 中 ， 我 们 可 以 很 方便 地 跟 底 层 操作 系统 进行 交互 。 其 中 义 语 句 就 是 在 
SAS 当前 会 话 中 执行 外 部 操作 系统 命令 的 全 局 语句 。 在 Linux 版 本 的 SAS 中 ， 终 端 用 
F G 很 方便 地 用 X 命令 对 SAS 输出 进行 清 屏 ， 即 X clear; 比如 ， 下 面 的 x 语句 可 以 
创建 目录 。 


x 'md C:\mycodes'; 


执行 义 语 句 后 会 出 现 一 个 DOS 控制 台 窗口 并 停留 在 屏幕 上 ， 如 果 希 望 执行 完 某 个 
操作 系统 命令 后 关闭 DOS 控制 台 窗 口 ， 可 使 用 DOS 命令 连接 符 & 并 执行 EXIT 命令 自 
动 退出 DOS 命令 窗口 。 


x 'md C:\mycodes & exit'; 


利用 X 全 局 语句 ， 我 们 可 以 将 一 个 大 型 分 析 项 目 分 解 为 若干 子 任 务 ， 然 后 在 主 程序 
中 按 需 调用 子 任务 来 组 织 项 目 代 码 。 比 如 ， 我 们 已 经 在 C:\temp\initdata.sas 中 写 好 了 准 
备 数据 的 代码 《〈 见 程序 8-11) ， 该 代码 生成 mydata 数据 集 到 Ci\temp 目录 中 。 
程序 8-11 待 执行 的 SAS 代码 片段 
libname mylib "C:\temp"; 
data mylib.mydata; 
input x 00; 
infile datalines; 
datalines; 
L:3:5/19-2:4 
6 8 10 
run; 
随后 我 们 在 主 程序 中 需要 使 用 程序 生成 数据 并 进行 后 续 分 析 工 作 ， 则 可 以 调用 义 语 
名 运行 该 SAS 程序 〈 见 程序 8-12) 。 
程序 8-12 tsas 代码 中 调用 另 一 个 SAS 进程 执行 SAS 代码 片段 


x 'sas C:\temp\initdata.sas & exit'; 


libname mylib "C:\temp";/* 此 时 C:\temp 目录 中 已 经 有 数据 集 了 */ 
proc print data-mylib.mydata; 

title; 
run; 


由 于 SAS 中 的 义 语 句 是 全 局 语句 ， 如 果 义 语句 出 现在 DATA 步 内 时 ， 它 会 
DATA 步 编译 完成 后 自动 执行 。 不 要 企图 在 DATA 步 内 用 正 语 句 实现 条 件 执 行 义 语 句 ， 
要 实现 条 件 执 行 外 部 系统 命令 必须 用 CALL SYSTEM 例 程 或 SYTEM 函数 。 

2.SYSTEM 例 程 和 SYSTEM 函 数 

CALL SYSTEM 5 X 全 局 语句 的 区 别 是 它 可 以 在 数据 步 内 被 条 件 调用 。 系 统 函数 
SYSTEM 与 该 CALL SYSTEM 例 程 类 似 ， 但 SYSTEM 函数 可 以 返回 所 执行 的 外 部 命令 
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的 状态 码 。CALL SYSTEM f BIfEfI SYSTEM 函数 能 执行 的 命令 长 度 不 得 超过 1024 字 符 。 

下 面 的 几 行 SAS 代码 ( 见 程序 8-13) 能 将 操作 系统 上 系统 目录 C:\Windows 中 的 
所 有 文件 名 收集 到 SAS 数据 集中 供 文件 异常 分 析 ， 其 中 如 果 存 在 system.ini 文件 的 话 ， 
SAS 将 弹出 Windows 记事 本 程序 打开 该 配置 文件 。 


程序 8-13 ”在 sas 代 码 执行 前 后 ， 运 行 外 部 操作 系统 命令 


x 'dir C:\windows /b > C:NtempMiles.txt & exit" 


data files; 
infile "C:NXtempMiles.txt" end-last; 
input filename $32.; 
if filename-"system.ini" then 
call system("notepad C:NwindowsNsystem.ini"); 
run; 


x 'del C:NtempMiles.txt /f & exit' ; 


甚至 可 以 编写 简单 的 网 络 探测 器 , 检测 互联 网 中 的 特定 机 器 是 否 在 线 ( 见 程序 8-14) o 
对 于 不 需要 检测 的 主机 只 需要 将 flag 标志 设置 为 0 即 可 。 


程序 8-14 简单 的 网 络 嗅 探 器 

data conn; 
input flag $1. host $32.; 
if flag-"y" then do; 

offline-system( "ping " || host || " & exit" ); 

end; 
datalines; 

y www.baidu.com 

y www.sina.com 

y www.sohu.com 

n www.google.com 


run; 

proc print;run; 

程序 输出 如 图 8-2 所 示 。 

Obs flag host offline 
Ty www.baidu.com 0 
2 y www.sina. com 1 
3ly www.sohu.com 0 
4n www.google.com 
m ET, t i, ge P 

图 8-2 ”本 机 网 络 连通 性 数据 

3.%SYSEXEC 宏 语句 


如 果 需 要 在 SAS 宏 代码 或 开 型 代码 中 执行 外 部 系统 命令 , 可 以 使 用 系统 宏 %SYSEXEC 
语句 来 执行 操作 系统 命令 。 该 宏 语句 %SYSEXEC 执行 命令 返回 的 状态 码 可 从 系统 宏 变 量 
&SYSRC 中 读 取 〈 见 程序 8-15) 。 


EE SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


程序 8-15 在 SAS 宏 中 执行 外 部 系统 命令 
$SYSEXEC DIR C:\WINDOWS /B > C:\TEMP\FILES.TXT & EXIT; 
&PUT &SYSRC; /* 执 行 成 功 返回 0*/ 


$SYSEXEC NOTEPAD C:\TEMP\FILES.TXT; 
SPUT &SYSRC; /* 执 行 成 功 返回 0*/ 


%SYSEXEC ; /* 弹 出 Dos 窗口 */ 


其 中 最 后 一 个 无 参数 调用 会 弹出 DOS 命令 窗口 等 待 用 户 输入 ， 直 到 用 户 输入 EXIT 
命令 返回 SAS 会 话 。 
上 面 3 种 执行 系统 命令 的 行为 方式 ， 受 2 个 SAS 系统 选项 的 控制 和 影响 ， 分 别 用 于 
控制 DOS 窗口 的 行为 和 命令 执行 时 序 。 
(D XWAIT/NOXWAIT: 用 于 控制 SAS 执行 外 部 命令 的 DOS 命令 窗口 是 否 需要 
人 为 输入 EXIT 命令 才 关 闭 ; 默认 是 选项 是 XWAIT; NOXWAIT 意味 着 DOS 命令 窗口 
在 命令 执行 后 自动 关闭 。 
(2) XSYNC/NOXSYNC: 用 于 控制 SAS 是 否 等 待 执行 命令 启动 的 外 部 应 用 执行 完 
毕 才 返回 SAS 会 话 环境 。 这 两 个 选项 分 别 控 制 同步 和 异步 模式 ， 同步 模式 意味 着 SAS 
会 话 会 等 待 所 执行 的 命令 执行 完毕 后 才 返 回 SAS， 为 默认 选项 ， 异 步 模 式 则 表示 SAS 
不 必 等 待 外 部 应 用 执行 完毕 ， 可 直接 返回 。 同 步 模式 一 般 用 来 需要 等 待 外 部 命令 执行 完 
毕生 成 文件 或 数据 才能 继续 的 场景 。 
上 面 2 个 选项 可 以 组 合 出 4 种 情形 ， 但 前 者 是 控制 DOS 命令 窗口 的 行为 ， 后 者 是 
控制 SAS 是 否 需要 等 待 应 用 执行 完毕 的 时 序 控制 。 比 如 ， 在 SAS 代码 中 静默 执行 一 个 
外 部 命令 无 须 等 待 返回 ， 可 设置 为 


options noxsync noxwait; 
x 'md c:\temp\foo'; 


由 于 SAS 可 以 运行 在 多 种 Windows 或 Linux/Unix 平台 上 ， 而 不 同 平台 上 的 文件 路 
径 表 示 方 式 不 同 ， 此 时 在 SAS 代码 中 可 通过 检测 系统 宏 变量 &SYSSCP 和 &SYSSCPL 
来 标识 不 同 的 平台 类 型 ， 从 而 编写 移植 性 较 好 的 SAS 代码 。 比如 ， 在 Windows 7 
Professional 64 位 系统 上 &SYSSCP &SYSSCPL 的 输出 值 为 WIN 和 X64 7PR， 而 在 
Windows 10 Professional 64 位 平台 上 的 输出 值 为 WIN X64 10PRO. 

总 的 来 说 ，SAS 代码 的 组 织 技巧 包括 静态 文件 包含 ， 程 序 中 动态 扩展 代码 以 及 动态 
执行 外 部 SAS 程序 等 几 种 方式 。SAS 代码 不 必 像 Java 类 文件 那样 呆板 ， 用 户 可 随意 组 
织 SAS 代码 源 文 件 。 


文件 读 写 


SAS 作为 面向 分 析 的 第 四 代 计 算 机 语言 ， 它 提供 了 强大 的 文件 读 写 能 力 。 它 不 但 支 
持 通 用 编程 语言 C/C++ 那样 的 低级 文件 读 写 能 力 ， 它 还 提供 面向 数据 的 预定 义 格式 化 读 
写 能 力 。 本 章 主要 讲述 SAS 语言 中 和 传统 编程 语言 C/C++ 和 Java 类 似 的 文件 读 写 特性 
以 及 部 分 SAS 特有 的 高 级 读 写 特性 。 


9.1 二 进 制 文件 读 写 


计算 机 文件 本 质 上 都 是 磁盘 系统 上 的 二 进 制 字 节 流 ， 因 此 读 写 二 进 制 文件 是 掌握 文 
件 读 写 的 关键 。SAS 读 写 二 进 制 文件 分 别 使 用 infile 和 file 语句 ， 配 合 语句 选项 recfm-n 
进行 ， 其 中 语句 选项 recfm 有 多 个 可 能 的 值 ， 其 中 表示 按照 没有 记录 边界 的 字 节 流 方 
式 读 写 文件 ， 此 时 如 果 没 有 指定 逻辑 记录 长 度 LRECL， 其 默认 值 为 32767 字 节 。 当 文 
件 打开 后 使 用 input/put 语句 执行 真正 读 / 写 数据 时 ， 还 需 配 合 特殊 格式 ibl. 进行 。 需 要 
注意 一 点 是 ，SAS 的 二 进 制 读 写 方式 对 命名 管道 和 管道 设备 类 型 无 效 。 
程序 9-1 创建 二 进 制 文件 C:vabc.dat， 并 写 入 十 进 制 值 为 77 的 一 个 字 节 ， 该 数值 的 
十 六 进 制 为 4D， 即 英文 字母 “M” 的 ASC IEA. ERARE byte 赋值 时 ， 我 们 也 可 以 
使 用 十 六 进 制 方式 赋值 ， 如 byte=4Dx; 
程序 9-1 往 二 进 制 文件 中 写 入 一 个 字 节 
data null ; 
file "C:\abc.dat" recfm-n; 
byte-77; /*9 byte-4Dx*/ 


put byte ibl.; 
run; 


程序 9-2 实现 往 二 进 制 文件 C:vabc.dat 中 写 入 整个 ASC IER, HH ASC IT 码 表 的 
数值 介 于 十 进 制 的 0-127〈 十 六 进 制 的 00-7F) ， 其 中 32-126 为 可 显示 字符 ， 其 余 为 控 
制 字符 。 


程序 9-2， 往 二 进 制 文件 中 写 入 整个 Asc II 码 表 
data null ; 
file "C:Vabc.dat" recfm-n; 
do i-0 to 127;/*ASC II 32-126 为 可 显示 字符 */ 
byte-i; 
put byte ibl.; 
end; 
run; 
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我 们 也 可 以 使 用 特殊 的 内 嵌 数 据 区 来 读 取 数据 ， 程 序 9-3 从 源 代 码 内 嵌 数 据 行 中 读 
入 十 六 进 制 文本 415A617A3039207E 并 将 它们 转换 成 字 节 写 入 二 进 制 文件 C:vabc.dat。 
注意 input 语句 读 取 数 据 时 使 用 了 十 六 进 制 方式 连续 读 取 ， 而 “if byte^=.;” 一 行 代码 是 
用 来 防止 SAS 将 输入 缓冲 区 的 空白 字符 写 入 到 目标 文件 。 


程序 9-3 将 数据 行 中 的 十 六 进 制 数 据 写 入 二 进 制 文件 
data null ; 

infile datalines; 

input byte hex2. @@; 

if byte^-.; 

/* 内 说 数 据 行 默认 增长 40 记录 ， 读 取 外 部 文件 则 不 需要 此 控制 */ 


file "C:Nabc.dat" recfm-n; 
/+ 打开 文 件 并 将 读 入 的 字 节 写 入 二 进 制 文件 C: Nabc.dat*/ 
put byte ibl.; 


datalines; 
415A617A3039207E 
run; 


我 们 可 用 如 下 程序 逐个 字 节 读 取 刚 才 写 到 磁盘 上 的 二 进 制 文件 Cabe. dat 并 将 其 用 
十 进 制 表示 对 应 的 字符 ， 以 及 十 六 进 制 表示 写 入 数据 集 work.mydata 中 《〈 见 程序 9-4) o 


程序 9-4 从 二 进 制 文件 中 按 字 节 读 取 数 据 并 构建 数据 集 
data mydata; 

infile "C:Nabc.dat" recfm-n; 

input byte ibl. G0; 


put byte hex2.; 
char-byte (byte) ; /* 将 数据 转 成 字符 输出 到 sas 数据 集 */ 
hex=put (byte，hex2.) ; /* 输 出 数据 的 十 六 进 制 表示 */ 


run; 
proc print data-mydata; run; 


运行 该 代码 后 系统 输出 如 图 9-1 所 示 。 


1 65 A 41 
li 2 90/2 5A 
3| 97|a 61 
4| 1222 7A 
5 48 0 30 
6 57/9 39 
7 32 20 
8| 126 - 7E 


a n a Pa P ats 


图 9-1 从 二 进 制 文件 读 入 数据 


二 进 制 文件 读 取 也 可 以 指定 每 次 读 取 的 字 节 数 ， 比 如 中 国 券商 软件 通达 信 的 日 线 数 
据 就 是 以 二 进 制 格 式 存储 的 ， 我 们 可 以 通过 input 语句 指定 ib4. 或 ib8. 格式 来 一 次 读 取 4 
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或 者 8 个 字 节 ， 用 户 可 相应 配合 输出 格式 hex8. 或 hex16. 进行 调试 和 输出 。 掌 握 了 二 进 
制 文件 读 写 可 以 非常 方便 地 解析 计算 机 上 任何 格式 的 数据 ， 而 且 用 SAS 语言 编写 程序 来 
读 写 数据 代码 非常 简洁 高 效 ， 与 C/C++ 等 通用 语言 比 起 来 更 加 出 众 。 笔 者 使 用 SAS 程 
序 读 取 通 达 信 交 易 软 件 的 日 线 数 据 只 有 区 区 15 行 ， 就 能 把 二 进 制 的 交易 数据 迅速 转 
换 成 SAS 数据 集 供 进一步 分 析 ， 如 果 采 用 其 他 语言 编写 同等 程序 的 话 其 代码 量 将 远 
远 超 过 SAS 代码 。 


9.2 文本 文件 读 写 


SAS 在 Windows 平台 上 的 默认 记录 格式 (Record Format) 为 recftm=V， 表 示 按 照 变 
长 记录 格式 读 写 ， 该 选项 的 其 他 格式 还 包括 F 和 P， 分 别 表示 定 长 记录 格式 和 打印 格式 。 
在 SAS 中 读 写 文本 文件 代码 极其 简单 , 程序 9-5 往 文本 文件 C:\abc.dat 中 写 入 两 行文 本 。 
程序 9-5 将 字符 数据 写 入 文本 文件 
data null ; 
file "C: Nabc.dat"; 
put "The Power to Know"; 


put "The Only Constant is Change"; 
run; 


由 于 文本 文件 通常 涉及 字符 编码 这 一 概念 ， 字 符 编码 的 本 质 就 是 将 字符 语义 跟 它 对 
应 的 编码 值 〈 即 码 点 ) 进行 映射 ， 而 包括 特定 字符 的 编码 集合 称 为 字符 集 ， 根 据 表示 一 
个 字符 所 使 用 的 字 节 的 多 少 ， 编 码 字 符 集 可 分 为 单字 节 字 符 集 (SBCS) 、 双 字 节 字符 
集 (DBCS) 和 多 字 节 字符 集 (MBCS) 三 大 类 。 现 在 普遍 使 用 的 Unicode 编码 系统 试图 
统一 所 有 的 字符 编码 方式 ， 并 在 具体 编码 实现 上 引入 变 长 字符 编码 方式 UTF-8. UTF-16 
以 及 UTF-32 等 。 

在 计算 机 发 展 的 早期 并 没有 考虑 到 各 国文 字 编 码 问 题 , 由 美国 国家 标准 协会 (ANSI) 
制定 的 美国 信息 标准 交换 码 CASC ID. 用 7 位 的 二 进 制 数 (0x00-0x7F) 表示 大 小 写 的 
英文 、 数 字 和 基本 标点 符号 以 及 控制 字符 ， 其 最 高 位 被 用 作 奇 偶 校 验 位 。 后 来 随 着 计算 
机 的 发 展 各 国 纷纷 基于 ANSI 标准 扩展 了 自己 的 ASC II 编码， 其 秘密 就 是 利用 码 点 在 
0x80-0xFF 范围 内 的 两 个 字 节 表示 自己 国家 或 地 区 的 字符 编码 ， 从 而 衍生 出 中 国 大 陆 使 
用 的 GB2312 编 码 , 中 国 台 湾 地 区 使 用 的 BIG5 编码 以 及 日 本 使 用 的 Shift-JIS 编码 等 系统 ， 
但 这 些 扩展 ASC 开 编 码 互 不 兼容 。 

对 于 中 国 大 陆 使 用 的 国家 标准 汉字 编码 ， 主 要 是 基于 ANSI 编码 的 中 文 扩展 ASC II 
编码 ， 即 收录 6763 个 汉字 和 682 个 拉丁 、 希 腊 以 及 日 俄 字母 的 GB 2312 编码 。 它 的 前 
127 个 字符 与 ASC I 编码 兼容 ， 而 大 于 127 的 两 个 字符 连 在 一 起 用 于 表示 单个 汉字 或 符 
号 : 第 一 个 字 节 为 0xA1-0xF7; 第 二 个 字 节 为 0xA1-0xAE。 然 而 由 于 汉字 太 多 ， 于 是 后 
来 对 第 二 个 字 节 也 不 再 要 求 大 于 127， 这 样 1995 年 12 月 15 日 就 扩展 为 收录 21886 个 汉 
字 和 图 形 符号 的 汉字 内 码 扩展 规范 GBK 编码 (其 中 21003 个 汉字 、 部 首 或 构件 ，883 个 
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图 形 符号 ) 。2000 年 3 月 17 日 和 2005 年 11 月 8 日 发 布 的 GB 18030-2000 和 GB 18030- 
2005 国标 字符 集 分 别 扩容 至 27533 和 70244 个 汉字 ， 它 们 分 别 兼 容 Unicode 中 日 韩 统 
一 表意 文字 扩展 A 区 和 B 区 ， 并 包括 各 个 少数 民族 的 文字 。 中 文 编码 GB2312、GBK、 
GB18030 是 逐渐 扩展 、 后 向 兼容 的 官方 中 文 编码 系统 。 目 前 ， 由 于 全 球 UNICODE 编码 
标准 的 推广 ， 各 国 扩展 ASC II 编码 都 有 逐渐 向 UNICODE 编码 统一 的 趋势 。 

作为 国际 化 软件 系统 ，SAS 支持 几乎 所 有 平台 的 主流 编码 ， 涵 盖 各 种 UNIX K 
统 和 Windows 系统 。 其 中 Latinl/Latin9 分 别 表示 ISO 的 西欧 /欧洲 标准 ， 主 要 用 于 
UNIX/LINUX 平台 ;  wlatinl/wlatin2 表示 Windows 的 西欧 /中 欧 标 准 ， 用 于 Windows 
平台 。 表 9-1 列 出 了 SAS 常用 语言 和 平台 的 数据 编码 方式 。 


表 9-1 SAS 常用 语言 和 平台 的 数据 编码 方式 
EX ER | merx | cx 
Ege c t scm i 


| lainlaimg | em | ew | erp | ek | 
| | im95 | ibm937 | ibm939 | ibm93 | 


在 SAS 代码 中 读 写 文件 时 如 果 不 指定 编码 方式 ， 默 认 使 用 操作 系统 的 ANSI 编码 
方式 ， 对 于 中 文 就 是 GB 2312 和 GBK 兼容 编码 。 随 着 UNICODE 的 兴起 ， 大 家 也 常 使 
用 utf-8 或 utf-16le 等 平台 默认 的 Unicode 编码 方式 进行 文本 文件 读 写 。 下 面 的 例子 使 用 
UTF-8 编码 方式 输出 包含 中 文 的 两 行文 本 到 C\abe.dat 中 。 


程序 9-6 将 字符 数据 按照 指定 编码 写 入 文本 文件 
data null ; 

file "C:\abc.dat" encoding="utf-8"; 

put "WARDE"; 

put "The Only Constant is Change"; 
run; 


对 于 UTF-8 编码 方式 ，SAS 系统 会 自动 输出 字 节 顺序 标志 BOM 到 文件 的 头 部 ， 也 
就 是 说 它 输出 文件 的 前 3 个 字 节 是 标志 字 节 EF BB BF， 用 于 明确 标记 该 文件 的 编码 为 
UTF-8， 供 别 的 系统 或 应 用 在 读 取 时 能 够 识别 它 。 程 序 9-7 以 文本 方式 打开 前 面 生成 的 
文本 文件 ， 按 行 读 取 数 据 并 打印 在 SAS 日 志 窗 口中 。 


程序 9-7 按 行 读 取 外 部 文本 文件 到 缓冲 区 和 数据 集 
data mydata; 
length line $ 255; 
infile "C:Vabc.dat" delimiter-'0DOA'x ;/* 以 回 车 换行 符 分 隔 */ 
input line; 
put line; 
run; 


系统 输出 如 下 : 
慧 识 力量 


The Only Constant is Change 
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需要 注意 的 一 点 是 ， 由 于 SAS 为 了 支持 各 种 常见 的 文本 格式 数据 读 取 ， 其 默认 读 取 
方式 为 变 长 记录 格式 Gecfm-VO ， 它 默认 使 用 空格 和 TAB 字符 作为 记录 之 间 的 分 割 符 ， 
因此 如 果 要 像 C/C++ 那样 按 行 读 取 文 本 ， 需 要 在 infile 语句 上 显 式 指定 使 用 回 车 换 
行 作为 记录 分 隔 符 (delimiter='0D0A'x) 并 设置 读 入 文本 行 的 最 大 长 度 为 足够 长 ， 
如 255。 

对 于 一 个 外 部 文件 ， 如 果 根 本 不 知道 每 一 行文 本 有 多 长 ， 该 如 何 读 取 这 些 变 长 的 文 
本 行 呢 ? SAS 提供 了 特殊 的 读 取 格 式 Svarying， 并 指定 其 最 大 支持 的 文本 长 度 即 可 ; F 
时 对 于 每 一 行 读 入 的 值 ， 可 通过 length= 指定 状态 变量 linelength 来 获取 读 入 的 实际 长 度 

〈 见 程序 9-8) 。 
程序 9-8 读 取 每 行 不 定 长 的 外 部 文本 文件 
data mydata; 
infile "C:NXtempNVabc.dat" length-linelength; 
input line $varying32767. linelength; 


put line- linelength- ; 
run; 


系统 输出 如 下 : 

line- 慧 识 力 量 len=8 

line-The Only Constant is Change len-27 

在 file/infile 语句 上 ， 我 们 也 可 以 指定 读 写 外 部 文件 的 最 大 逻辑 记录 长 度 LRECL. 
这 个 参数 的 有 效 值 为 1~32767 的 任意 整数 。 它 可 以 用 十 进 制 或 十 六 进 制 数 表 示 ， 或 者 指 
5E MIN 或 MAX (其 中 MIN=1, MAX-32767) ; 使 用 十 进 制 表示 时 也 可 同时 指定 存储 单 
位 K、M、G 或 T， 分 别 表示 存储 单位 Kb、Mb、Gb 或 Tb。 

LRECL 是 按 字 符 计算 的 ， 但 运行 时 系统 会 转换 为 实际 读 入 文件 编码 有 关 的 真实 字 
节 数 。 比 如 ， 指 定 27 个 字符 ， 如 果 外 部 文件 abc.dat 是 ANSI 格 式 ， 运 行 时 日 志 里 显示 
LRECL-27; 但 如 果 abc.dat 是 UTF-8 格式 的 ， 一 个 汉字 最 多 可 能 需要 4 个 字 节 存储 ， 所 
以 在 运行 时 日 志 中 显示 为 LRECL=108， 是 用 户 指定 的 LRECL 值 的 四 倍 。infile 语句 的 
LRECL 选项 需 谨 慎 指 定 ， 如 果 LRECL 太 小 可 能 导致 数据 截断 错误 ， 比 如 程序 9-9 由 于 
指定 为 LRECL=25， 其 输出 的 第 2 行文 本 会 被 截断 2 个 字 节 。 

程序 9-9 指定 读 入 文件 的 LRECL 长 度 

data mydata; 

infile "C:Vabc.dat" length-linelength lrecle25; /*SEK lrecl»-27*/ 
input line $varying32767. linelength; 


put line- linelength- ; 
run; 


如 果 我 们 需要 自己 控制 数据 解析 ， 则 不 能 给 input 语句 赋予 任何 参数 ， 然 后 可 使 用 
系统 内 部 变量 _infile 来 访问 读 入 缓冲 区 的 数据 。 下 面 的 代码 〈 见 程序 9-10) 生成 一 个 
数据 集 ， 每 一 行 记录 是 从 缓冲 区 _infile 文本 中 解析 出 的 一 个 单词 。 这 一 机 制 为 我 们 从 
文本 文件 中 读 取 格式 灵活 的 数据 成 为 可 能 ， 结 果 如 图 9-2 所 示 。 
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程序 9-10 ” 自 定义 缓冲 区 数据 解析 处 理 

data mydata; 
infile "C:\abc.dat" delimiter-'0DOA'x ; 
input; 


length word $ 32; 
i-1; 
word- scan( infile , i, ' '); 
do while(word ^-' '); 
put word; 
output; 
i-itl; 
word- scan( infile , i, ' '); 
end; 
drop i; 
run; 
proc print data-mydata;run; 


图 9-2 自 定义 数据 解析 过 程 


9.3 顺序 读 取 多 个 文件 


SAS 语言 支持 同时 从 多 个 文件 中 读 取 数 据 到 同一 数据 集中 ， 其 精妙 之 处 就 是 利用 
filename 语句 创建 单个 文件 引用 ， 但 实际 上 它 包 含 了 多 个 物理 文件 。 程 序 9-11 顺序 读 取 


两 个 文件 内 容 并 生成 单个 数据 集 。 


程序 9-11 顺序 读 取 多 个 文件 示例 
/* 生 成 文件 一 abc.dat*/ 
data null ; 
file "C:\abc.dat" ; 
put "The Power to Know"; 
put "The Only Constant is Change"; 


run; 

/* 生 成 文件 二 def.dat*/ 

data null ; 
file "C:\def.dat" encoding-"utf-8"; 
put "RJE"; 
put " 唯 有 变化 ， 才 是 永恒 "; 


run; 


/* 读 入 多 个 文件 的 数据 到 同一 目标 数据 集 */ 
filename files ( 'C:Nabc.dat','C:Mdef.dat') encoding-"utf-8"; 
data mydata; 
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length line $ 255; 
infile files delimiter-'0D0A'x ; /*files 实 际 上 指向 多 个 文件 */ 


input line; 
put line=; 
run; 


结果 数据 集 mydata 包含 4 行文 本 ， 如 图 9-3 所 示 。 


Obs line | 
1 | The Power to Know | 
| 2 | The Only Constant is Change 
HETT 
4 | 唯 有 变化 ， 才 是 永恒 
WOOT qma aai aa a O 


图 9-3 顺序 读 取 多 个 文件 


另外 ，SAS 的 filename 语句 还 支持 文件 通配符 ， 这 样 我 们 就 可 以 从 磁盘 上 某 个 目录 
下 批量 读 入 多 个 文件 了 。 比 如 : filename file ('C:\*.dat') encoding-"utf-8" 可 以 读 取 C dit 
根 目录 下 的 所 有 后 缀 为 DAT 的 文件 。 

使 用 filename 语句 来 读 取 多 个 外 部 文件 需要 我 们 预先 知道 文件 名 ， 但 如 果 文 件 列表 
来 自 某 个 数据 集 或 者 外 部 文件 ， 我 们 又 该 如 何 进行 批量 文件 读 取 呢 ? 

比如 ， 我 们 希望 在 单个 数据 步 内 顺序 读 取 多 个 文件 ， 可 使 用 infile 语句 并 指定 一 个 
filevar 变量 来 实现 ， 而 filevar 所 指向 的 变量 的 值 是 从 某 个 文件 列表 或 人 为 指定 的 。 为 了 
判断 每 个 数据 文件 读 取 是 否 结束 ， 我 们 使 用 end= 选项 来 输出 结束 标志 到 某 个 状态 变量 
eof 中 ， 然 后 在 该 infile 语句 后 就 可 以 使 用 eof 变量 来 判断 是 否 读 到 了 单个 文件 的 最 后 。 
程序 9-12 完整 展示 了 这 种 多 文件 读 取 的 灵活 机 制 。 


程序 9-12 ”从 文件 清单 中 指定 的 多 个 文件 中 读 取 数据 
/* 生 成 list.dat 文件 */ 
data null ; 

file "C:\list.dat" ; 


put "C:Nabc.dat"; 
put "C: WMdef.dat"; 
run; 


data mydata; 
infile "C:Mlist.dat"; 
length fileloc $ 256; 
input fileloc $; /*JÀ list.dat 中 读 入 文件 路 径 到 fileloc 变量 中 */ 


/* 将 fileloc 变量 传递 给 读 取 数据 的 infile 语句 ， 并 指定 分 隔 符 和 结束 标志 变量 */ 
infile myfile fllevar-fileloc delimiter-'0D0A'x end=eof ; 
put "-Begin-- " fileloc ; 
do while(not eof); 
length line $255; 
input line; 
put line-; 
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output; 

end; 

put "--End-- " fileloc ; 
run; 


系统 输出 如 下 : 


--Begin-- C:\abc.dat 

line=The Power to Know 

line=The Only Constant is Change 
--End-- C:\abc.dat 


--Begin-- C:\def.dat 
line- 慧 识 力量 

line- 唯 有 变化 ， 才 是 永恒 
--End-- C:\def.dat 


如 果 文 件 列表 已 经 在 某 个 SAS 数据 集 某 列 内 存在 ， 如 假定 该 列 名 为 fleloc， 则 我 们 
也 可 以 非常 简单 地 利用 SET 语句 从 该 数据 集中 获取 filevar 值 〈 见 程序 9-13) o 


程序 9-13 ”从 数据 集 变量 中 指定 的 多 个 文件 中 读 取 数据 
data filelist; 
infile datalines; 


length fileloc $ 300; 
input fileloc; 
datalines4; 
C:Nabc.dat 
C: Nedf.dat 


run; 


data mydata; 
set filelist; 


/* 将 fileloc 变量 传递 给 读 取 数据 的 infile 语句 ， 并 指定 分 隔 符 和 结束 标志 变量 */ 
infile myfile fllevar-fileloc delimiter-'0D0A'x end-eof ; 
put "-Begin-- " fileloc ; 
do while(not eof); 
length line $255; 
input line; 
put line-; 
output; 
end; 
put "--End-- " fileloc ; 
run; 


即使 在 读 取 多 个 文件 时 ， 如 果 我 们 需要 完全 控制 对 缓冲 区 数据 的 解析 ， 依 然 可 以 像 
前 面 一 样 使 用 内 部 变量 _infile 进行 自 定义 解析 。 下 面 的 程序 〈 见 程序 9-14) 演示 了 从 
两 个 外 部 文件 读 取 时 ， 使 用 SCAN 函数 对 每 一 行 数据 进行 自 定义 解析 的 过 程 。 


程序 9-14 ， 读 取 多 个 文件 时 自 定义 缓冲 区 解析 膛 辑 
data null ; 
do i = 1 to 2; 
/* 生 成 列表 文件 1ist .dat， 包 含 两 行 数据 指向 datOl.dat, dat02.dat */ 
file 'C:\temp\list.dat'; 
fname- 'C:\temp\dat' || put(i,z2.) || '.dat'; 
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put fname; 


/* 生 成 数据 文件 datOl.dat dat02.dat 数据 ， 每 一 行 包含 i j 两 列 */ 
file datfiles filevar-fname; 
do j = 1 to 3; 
put i j; 
end; 
end; 
run; 


data mydata; 
/* 读 取 列 表 文件 list.dat 并 将 缓冲 区 变量 设置 为 fname*/ 
infile 'C:\temp\list.dat' _infile =fname; 
input; 


/* 对 于 每 一 个 文件 fname 读 入 并 解析 它 的 缓冲 区 变量  infile */ 
infile datfiles filevar-fname end-eof; 
put "--begin-- " fname; 
do while(^eof); 
input; 
put _infile_;/* 输 出 到 sas 日 志 */ 


/* 自 己 解析 缓冲 区 数据 输出 到 数据 集中 */ 
i-scan( infile , 1," "); 
jescan( infile , 2," "); 


output; 
end; 
put "--end-- " fname; 
run; 


proc print data-mydata; run; 


系统 生成 数据 集 mydata 如 下 〈 见 图 9-40 ， 其 中 前 3 行 来 自 第 一 个 文件 ， 后 3 行 来 
自 第 二 个 文件 。 


É 


唱和 由 INI- 
NINN 


图 9-4 ”从 多 个 文件 读 取 数据 并 解析 


9.4 并行 读 取 多 个 文件 


SAS 也 可 以 在 单个 数据 步 内 同时 打开 多 个 文件 ， 然 后 从 每 个 文件 中 并 行 读 入 数据 ， 
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直到 最 短 的 那个 文件 被 读 完 为 止 。 利 用 这 一 特性 ， 我 们 可 以 从 多 个 文件 中 读 取 数据 到 
数据 集 同 一 观测 的 不 同 列 上 ， 如 下 程序 〈 见 程序 9-13) 生成 的 数据 集中 ，English 和 
Chinese 两 列 数据 分 别 来 自 不 同 的 数据 文件 abc.dat 和 ed£dat CLE 9-5) 。 

程序 9-15 并行 读 取 多 个 文件 中 的 数据 建立 观测 


data mydata; 
infile 'C:\temp\abc.dat' delimiter='0D0A'x 


length english $ 255; 
input english; 


infile 'C:\temp\def.dat' delimiter='0D0A'x encoding="utf-8"; 
length chinese $ 255; 
input chinese; 


run; 
proc print data=mydata; run; 


Obs english chinese 
1 | The Power to Know minm 
2 | The Only Constant is Change | 唯 有 变化 ， 才 是 永恒 
PT Noe, 


图 9-5 并 行 读 取 多 个 文件 


VEI 


9.5 共享 缓冲 区 读 写 


SAS 对 某 个 文件 的 读 写 可 发 生 在 同一 个 数据 步 内 ，infile 语句 会 有 输入 缓冲 区 ， 而 
file 会 有 输出 缓冲 区 。 如 果 我 们 希望 对 某 个 文件 进行 修改 ， 则 我 们 可 以 直接 让 infile 打开 
文件 时 设置 为 共享 缓冲 区 模式 ， 这 样 fle 的 put 语句 就 可 重用 该 输入 缓冲 区 ， 将 数据 直 
接 写 到 磁盘 文件 上 。 如 下 程序 〈 见 程序 9-16) 演示 如 何 读 入 外 部 文件 abc.dat 数据 并 将 
数据 进行 反 转 输出 ， 结 果 如 图 9-6 所 示 。 由 于 反 转 后 的 数据 写 回答 入 文件 中 ， 该 程序 每 
执行 一 次 数据 就 发 生 一 次 反 转 。 


程序 9-16 共享 同一 缓冲 区 读 写 示例 

filename myfile "C:\temp\abc.dat"; 

data mydata; 
length line $ 255; 
infile myfile delimiter='0D0A'x sharebuffers; 
file myfile; /* 让 infile 和 file 共享 缓冲 区 */ 


input line; 

line=reverse (line); 

put line ; /* put 语句 直接 将 输入 缓冲 区 (而 非 输 出 缓冲 区 ) 数据 写 到 磁盘 */ 
run; 
proc print data-mydata ;run; 
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Obs line 


1 | wonK ot rewoP ehT 
2 | egnahC si tnatsnoC ylnO ehT 


mnt P ti t Paca 


图 9-6 读 写 共享 缓冲 区 


本 章 讲述 了 在 SAS 中 如 何 读 写 二 进 制 文件 和 文本 文件 ， 读 出 的 数据 可 灵活 构造 
SAS 数据 集 以 供 分 析 。 对 于 文本 文件 ，SAS 在 读 写 时 可 指定 文件 编码 并 自 定义 数据 解析 
规则 。SAS 还 支持 多 文件 顺序 处 理 和 并 行 处 理 ， 最 后 简单 演示 了 如 何 利用 共享 缓冲 区 修 
改 外 部 文件 。 


按 位 运算 


现代 计算 机 系统 采用 的 二 进 制 系统 可 以 追溯 到 1679 年 受到 中 国 《 易 经 》 启 发 的 德 
国 数学 家 莱 布 尼 茨 ， 他 在 1703 年 发 表 的 论文 《 论 只 使 用 符号 0 和 1 的 二 进 制 算术 ， 兼 
论 其 用 途 及 它 赋 予 伏 义 所 使 用 的 古老 图 形 的 意义 》 中 提出 了 二 进 制 。 现 代 计 算 机 在 硬件 
底层 基本 上 都 采用 二 进 制 系统 进行 数据 存储 和 运算 ， 组 成 二 进 制 数 的 每 一 位 为 0 或 1， 
称 为 一 个 位 或 比特 (Bit) ， 由 数字 电路 中 的 逻辑 门 直接 实现 。 图 10-1 是 由 8 个 逻辑 “位 ” 
组 成 的 存储 单元 “ 字 节 ”示意 图 ， 相 当 于 由 8 幻灯 连 在 一 起 组 成 的 一 个 复合 信号 单元 ， 
每 功 灯 都 可 以 是 开 / 关 (1/0) 两 种 状态 ， 则 S 蔓 灯 串 在 一 起 可 表示 256 种 不 同 信号 。 
10-1 中 的 二 进 制 01010110 表示 十 进 制 数 为 86， 表 示 十 六 进 制 数 为 56。 如 果 它 表示 
一 个 ASC II 字符 ， 则 是 ASC II 码 表 中 的 大 写字 母 “V” o 


1 位 
jio[rjoj1[oj1]i[o] 


1 字 节 =8 位 
图 10-1 字 节 与 比特 


现代 计算 机 存储 器 〈 如 内 存 、 硬 盘 和 各 种 存储 卡 ) 的 最 小 存储 单元 是 字 节 ， 而 编程 
语言 的 基本 数据 类 型 系统 通常 基于 字 节 而 构建 ， 包 括 字 符 、 整 数 和 浮 点 数 等 系统 表达 方 
式 。 为 文本 数据 构建 的 ASC IVEBCDIC 以 及 后 来 的 Unicode/UTF-8 等 编码 系统 应 运 而 生 ， 
为 数值 数据 构建 的 数据 类 型 系统 , 包括 整 型 系统 ( 短 整 型 -16 位 、 整 型 -32 位、 长 整 型 -64 
位 ， 和 浮 点 型 ( 单 精度 -32 位 、 双 精度 -64 位 ) ， 通 常 由 IEEE 754 规范 定义 的 二 进 制 
浮 点 类 型 格式 及 其 变 体 来 定义 。 

位 操作 是 计算 机 系统 上 的 最 小 粒度 的 操作 处 理 ， 实 际 上 所 有 的 计算 机 处 理 最 终 都 是 
基于 比特 位 之 上 构建 的 各 种 基础 运算 来 完成 。 现 代 计 算 机 架构 中 “位 运算 ”通常 与 加 法 
运算 的 速度 相同 ， 它 比 乘法 运算 要 快 。 一 些 早期 的 计算 机 通用 语言 (如 C/C++) 强大 的 
原因 之 一 是 它 能 从 最 小 的 存储 粒度 “位 ”上 操纵 数据 ， 其 核心 就 是 位 操作 和 指针 处 理 ， 
那些 计算 机 通用 语言 因此 可 控制 各 种 硬件 设备 。 


10.1 按 位 运算 


本 章 重点 探讨 SAS 中 如 何 实现 位 操作 ， 以 及 使 用 位 操作 完成 ， 如 数据 加 密 和 基于 二 


第 10 章 按 位 运算 [CR 


进 制 的 复杂 算法 设计 ， 位 运算 在 图 像 处理 和 布尔 密集 型 计算 中 也 有 广泛 的 使 用 。 位 运算 
本 身 规则 简单 ， 基 本 位 操作 运算 有 如 下 几 种 方式 。 

(OD 与 操作 AND) : 对 两 个 等 长 的 二 进 制 数 ， 相 应 的 二 进 制 位 都 为 1， 则 结果 
中 相应 二 进 制 位 为 1。 如 0101 0110 AND 0000 1111=0000 0110。 

(2) 或 操作 CORO : 对 两 个 等 长 的 二 进 制 数 ， 相 应 的 二 进 制 位 只 要 有 一 个 为 1， 
则 结果 中 相应 二 进 制 位 为 1。 如 0101 0110 OR 0000 1111=0101 1111. 

G) 异 或 操作 (XOR〉: 对 两 个 等 长 的 二 进 制 数 ， 相 应 的 二 进 制 位 如 果 不 同 ， 则 
结果 位 为 1。 如 0101 0110 XOR 0000 1111=0101 1001. 

(4) 取 反 操作 CNOT) : 对 单个 二 进 制 数 的 每 一 个 二 进 制 位 执行 取 反 操作 ， 即 0 
变 成 1，1 变 成 0。 如 NOT 0101 0110 = 1010 1001. 

C5) 移 位 操作 : 包括 左 移 位 LSHIFT 和 右 移 位 RSHIFT。 将 二 进 制 数 所 有 比特 位 向 
左 或 右 移动 指定 位 数 ， 将 溢出 的 部 分 舍 去 ， 空 缺 的 部 分 填 入 0 值 。 

如 左 移 3 位 : 0101 0110 << 3 = 1011 0000, 4549 3 位 : 0101 0110 >> 3= 0000 1010。 

需要 注意 的 一 点 是 ， 这 里 的 按 位 逻辑 操作 与 布尔 代数 中 的 逻辑 操作 不 同 ， 它 是 二 进 
制 数 中 的 相应 比特 位 之 间 进行 逻辑 AND/OR/XOR/NOT 操作 ， 而 非 整 体 之 间 进 行 布尔 逻 
辑 操作 ， 故 称 按 位 运算 CBitwise Operation) 。 


10.2 实现 方法 


在 SAS 中 有 多 种 方法 实现 按 位 运算 ， 这 里 主要 讲解 其 中 的 两 种 。 
(1) 利用 INPUT/PUT 函数 配合 输入 输出 格式 SBINARY 进行 位 操作 。 在 SAS 变量 
和 外 部 的 字符 表达 形式 之 间 ， 可 用 输入 输出 格式 进行 转换 。RANK/BYTE 系统 函数 也 可 
在 字符 码 点 值 和 字符 变量 之 间 进 行 转换 ， 参 考 如 下 代码 〈 见 程序 10-1) 。 


程序 10-1 输入 输出 格式 配合 INPUT/PUT 函数 实现 数据 表示 和 存储 之 间 的 转换 


data null ; 
a-'V'; 
b=put (a, SBINARY8.); /* 返 回 二 进 制 表示 */ 
c=input (b, $BINARY8.); /* 二 进 制 表 示 转 成 字符 变量 */ 
h=put (a, $HEX2.); /* 返 回 十 六 进 制 表示 */ 
i=input (h, $HEX2.); /* 二 进 制 表示 转 成 字符 变量 */ 
o-RANK (a) ; /* 返 回 数字 ， 即 十 进 制 表 示 */ 
e-BYTE (0) ; /* 数 字 转 换 为 字符 */ 
put a- b- c= o- e- h- i-; 

run; 


系统 输出 为 a=V b=01010110 c-V 0-86 e-V h-56 i-V. 


本 方法 主要 利用 格式 化 和 隐 性 数据 类 型 转换 模拟 二 进 制 操作 ， 它 不 是 在 变量 字 节 存 
储 层 面 上 进行 位 操作 ， 而 是 转 成 对 应 的 字符 表达 后 进行 操作 ， 最 后 改变 变量 存储 本 身 。 
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比如 字符 “A’ M B 要 进行 AND 操作 ， 首 先 各 自转 成 二 进 制 表示 的 字符 串 “01000001? 
和 “01000010” ; 其 次 利用 加 法 中 的 自动 类 型 转换 (它们 都 隐 性 变 为 十 进 制 数 1000001 
和 1000010) ， 加 法 运算 结果 为 十 进 制 数 2000011， 利 用 z8. 格式 化 输出 后 的 字符 串 表 达 
为 “02000011”; 再 次 利用 字符 串 替换 函数 translate 将 1 替换 为 0，2 替换 为 1 得 到 字 
符 串 “01000000”; 最 后 利用 二 进 制 输入 格式 SBINARY. 将 它 转 成 二 进 制 数 01000000〈 即 
十 六 进 制 的 0x40) ， 对 应 的 字符 表示 为 “@”。 程 序 10-2 完整 展示 基于 这 种 机 制 实现 


的 各 种 位 操作 运算 。 


程序 10-2 格式 化 方法 实现 二 进 制 按 位 操作 
/* 位 操作 方法 1*/ 
data null ; 

a-'A'; 

a2-put(a, SBINARY.); 

put a a2 '«- A'; 

b-'B'; 

b2-put(b, $BINARY.); 

put b b2 '«- B'; 


/* AND 操作 */ 


s = translate( put (put(a, S$SBINARY.)-*put (b, 


and ab-input(s, SBINARY.); 
and ab2-put(and ab, $BINARY.); 
put and ab and ab2 '«- A AND B'; 


/* oR 操作 */ 


S$BINARY.),28.), '01','12'); 


s = translate( put (put(a, S$BINARY.)-*put (b, 


or ab-input(s, S$BINARY.); 
or ab2-put(or ab, S$BINARY.); 
put or ab or ab2 '«- A OR B'; 


/* XOR 操作 */ 


S$BINARY.),z8.) , '1', '2"); 


s-translate( put (put(a, S$BINARY.)-*put (b, 


xor ab-input(s, SBINARY.); 
xor ab2-put(xor ab, $BINARY.); 
put xor ab xor ab2 '«- A XOR B'; 


/* NoT 操作 */ 


SBINARY.),z8.),'0','2"); 


s-translate( put(a, SBINARY.),'01','10'); 


not a-input(s, S$BINARY.); 
not a2-put(not a, $BINARY.); 
put nota ' ' not a2 '«- NOT A'; 


/* 左 移 位 操作 << 2*/ 


n-2; 


if n< length(trim(put(a, $BINARY.))) then 


s-substr(put(a, $BINARY.), n*1); 
else 


s-substr(put(a, $BINARY.), length (trim (put (a, 


1s a-input(s , $BINARY.); 

1s a2-put(ls a, SBINARY.); 

put ls a Ia az *"€-/A < ' ni 
/* 右 移 位 操作 >> 2*/ 


n-2; 


SBINARY.)))):; 
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if n« length(trim(put(a, $BINARY.))) then 

s= trim(repeat("0",n-1)) || substr( put(a, $BINARY.), 1, 
length(trim(put(a, $BINARY.)))-n); 

else 
gestis; 

rs a-input( s, $BINARY.); 

rs a2-put(rs a, $BINARY.); 

put rsa rs HB <— A oS» "or 

put; 

put a- hex. b- hex. and ab-hex. or ab- hex. xor ab- hex. not a- 
hex. ls a- hex. rs a- hex.; 

run; 


系统 输出 如 下 : 


A 01000001 <- A 

B 01000010 «- B 

@ 01000000 «- A AND B 
C 01000011 «- A OR B 
_ 00000011 <- A XOR B 
? 10111110 «- NOT A 
. 00000100 «- A «« 2 
_ 00010000 <- A >> 2 


a=41 b-42 and ab-40 or ab-43 xor ab-03 not a-BE ls a-04 rs a-10 


(2) 利用 SAS 系统 提供 的 6 个 函数 DAND/bOR/bXOR/bNOT 和 bLSHIFT/bRSHIFT 
实现 各 种 位 操作 。 位 操作 函数 的 参数 为 介 于 0-277 的 整数 ， 即 0-4294967295 的 无 符号 
整数 ， 其 中 移 位 操作 的 位 数 参数 则 介 于 0-31， 也 就 是 说 SAS 位 操作 函数 默认 最 大 为 4 
字 节 无 符号 整数 ， 但 我 们 可 以 通过 分 组 实现 对 任意 长 度 的 字 节 序列 进行 位 操作 。 程 序 
10-3 展示 了 双 字 节 十 六 进 制 数 ACE1 以 及 右 移 5 位 后 的 结果 0567。 

程序 10-3 ”基于 SAS 按 位 操作 函数 实现 位 操作 
data null ; 


a-0ACElx; 
put a BINARY16. " " a HEX.; 


b-bRSHIFT( a, 5); 
put b BINARY16. " " b HEX.; 
run; 


系统 输出 : 


10101100 11100001 0000ACE1 
00000101 01100111 00000567 


程序 10-4 完整 展示 了 SAS 位 操作 方面 的 全 部 功能 ， 可 查看 输出 来 理解 SAS 中 的 位 
操作 运算 方法 。 


程序 10-4 基于 系统 函数 的 二 进 制 按 位 操作 
data null ; 

a-'A'; 

a2-put(a, BINARY.); 

put a a2 '«- A'; 


b-'B'; 
b2-put(b, BINARY.); 
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put b b2 '«- B'; 


/* AND 操作 */ 

and ab-bAnd(RANK(a), RANK(b)); 
and ab2-put(and ab, BINARY.); 
put and ab and ab2 '«- A AND B'; 


/* OR 操作 */ 

or ab-bOR(RANK(a), RANK(b)); 
or ab2-put(or ab, BINARY.); 
put or ab or ab2 '«- A OR B'; 


/* XOR 操作 */ 

xor ab-bXOR(RANK(a), RANK(b)); 
xor ab2-put(xor ab, BINARY.); 

put xor ab xor ab2 '«- A XOR B'; 


/* NoT 操作 */ 
not a-bNOT (RANK (a) ) ; 
not a2-put(not a, BINARY.); 


put nota ' ' not a2 '«- NOT A'; 
/* 左 移 位 操作 << 2*/ 
n-2; 


ls a-bLShift( RANK(a), 2); 
ls a2-put(l1s a, BINARY.); 
put 1s a 1s a2 '<- A << ' n; 


/* 右 移 位 操作 >> 2*/ 

n-2; 

rs a-bRSHIFT( RANK(a), 2); 

rs a2-put(rs a, BINARY.); 

put rs a rs a2 '<- A >>' n; 


put; 

put a- hex. b- hex. and ab-hex. or ab- hex. xor ab- hex. not a- 
hex. ls a- hex. rs a- hex.; 

run; 


系统 输出 如 下 : 


A 01000001 «- A 

B 01000010 «- B 

64 01000000 «- A AND B 

67 01000011 «- A OR B 

3 00000011 «- A XOR B 
4294967230 10111110 «- NOT A 
260 00000100 «- A «« 2 

16 00010000 <- A >> 2 


a-41 b-42 and ab-00000040 or ab-00000043 xor ab-00000003 
not a-FFFFFFBE ls a-00000104 rs a-00000010 


从 输出 结果 可 看 出 ， 二 进 制 输出 序列 与 前 面 的 例子 完全 相同 ， 但 由 于 位 操作 函数 默认 
输出 为 4 个 字 节 ， 因 此 其 十 六 进 制 输出 长 度 不 同 。 可 通过 设置 输出 格式 HEX2. 来 获得 同样 
结果 。 
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10.3 按 位 运算 应 用 


1. 位 操作 应 用 一 一 加 密 处 理 
位 操作 的 主要 应 用 之 一 是 在 数据 的 二 进 制 存储 层面 对 数据 进行 变换 ， 打 破 字 节 和 字 
符 边界 对 数据 进行 高 级 的 加 密 功 能 。 基 于 字母 表 移 位 变换 的 凯撒 密码 采用 字母 表 偏 移 实 
WM, Æ SAS 中 用 几 行 简单 的 代码 即 可 做 到 〈( 见 程序 10-5) ， 如 HELLO WORLD 移 位 为 
3 的 凯撒 密码 为 KHOOR ZRUOG。 
程序 10-5 ”基于 字符 移 位 的 恺 撒 密码 
data null ; 
text-"HELLO WORLD"; 
pass-translate(text, 'DEFGHIJKLMNOPQRSTUVWXYZABC', 
'ABCDEFGHIJKLMNOPQRSTUVWXYZ'); 


put text "-» " pass; 
run; 


为 演示 目的 ， 程 序 10-6 利用 密码 “123456” 对 明文 字符 串 “Hello World” 在 字 节 
层面 进行 简单 的 逐 段 按 位 异 或 XOR 形成 密 文 。 这 种 方法 可 用 于 简单 的 信息 加 密 ， 实 际 
项 目 中 对 信用 卡号 码 ， 用 户 密码 以 及 其 他 敏感 数据 的 加 密 往往 根据 需要 采用 各 种 强加 密 
算法 在 字 节 层面 上 对 数据 进行 加 密 存储 。 基 于 KOR 运算 的 特性 ， 再 次 XOR 操作 即 可 从 
密 文 中 解析 出 加 密 前 的 明文 。 


程序 10-6 按 位 操作 XoR 的 简单 加 密 
data null ; 
a-'Hello World'; 


bz'123456'; 
put "Hx: "a; 
put "密码 : " b; 


length c $ 13; 
do i-1 to length(a); 
and ab-bXOR( 
RANK (substr(a,i,1)), 
RANK (substr (b,mod(i,length (trim(b)))*1,1))); 
substr(c,i,1)-BYTE(and ab); 
and ab2-put(and ab, S$BINARY.); 
end; 
put "EX: "c ; 
length d $ 13; 
do i-1 to length(a); 
and ab-bXOR( 
RANK (substr(c,i,1)), 
RANK (substr (b,mod (i, length (trim (b))) 41,1))); 
substr (d, i, 1)=BYTE (and ab); 
and ab2-put(and ab, SBINARY.); 
end; 
put "RÈ: "à; 


run; 
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系统 输出 为 


明文 : Hello World 
密码 : 123456 

密 文 : zVXYY_e\FYR 
解密 : Hello World 


2. 位 操作 应 用 一 一 颜色 分 量 

位 运算 在 图 形 图 像 处 理 中 也 比较 常见 ， 由 于 计算 机 系统 的 色彩 体系 通常 采用 4 字 节 
的 无 符号 整数 表示 ， 而 图 像 处 理 需 要 对 色彩 和 透明 度 进行 分 解 处 理 。 对 于 一 个 带 有 透明 
通道 Alpha fff] RGB 颜色 ， 我 们 可 以 利用 位 操作 获取 Alpha 值 和 RGB 3 种 颜色 分 量 ， 
变换 后 也 可 以 重新 合成 新 的 色 值 。 程 序 10-7 利用 位 操作 从 4 字 节 表示 的 颜色 值 中 获取 
Alpha 值 和 RGB 三 原色 分 量 。 

程序 10-7 ”对 十 六 进 制 表 示 的 颜色 值 进 行 分 量 处 理 


data null ; 
color-0FF998877x; /* 有 透明 通道 Alpha 值 的 RGB 颜 色 表示 */ 


alpha-bAnd(brshift(bAnd(color ,0FF000000x),24), OFFx); 
red-bAnd(brshift(bAnd(color ,000FF0000x),16), OFFx); 
green-bAnd(brshift(bAnd(color ,00000FF00x),8), OFFx); 
blue-bAnd(bAnd(color ,0000000FFx), OFFx); 


put color- hex8. alpha- hex2. red- hex2. green- hex2. blue- hex2.; 
run; 


系统 输出 : color-FF998877 alpha-FF red-99 green-88 blue-77 

3. 位 操作 应 用 一 一 随机 数 生成 

在 计算 机 上 生成 随机 数 是 一 个 非常 古老 的 话题 ， 其 中 用 线性 反馈 移 位 寄存 器 (Linear 
Feedback Shift Register, LFSR) 来 获得 一 个 给 定 初始 状态 的 伪 随 机 数 序列 是 个 很 好 的 随机 
数 生成 机 制 。 一 个 n 阶 的 LFSR 是 由 个 触发 器 和 若干 异 或 门 组 成 ， 如 图 10-2 所 示 为 一 
个 标准 的 16 位 斐 波 那 契 LFSR， 其 中 影响 下 一 状态 的 比特 位 在 16,14,13,11 处 ， 可 表示 为 
[16,14,13,11,0] 〈 它 存在 镜像 序列 为 [16,5,3,2,0]) ， 其 反馈 多 项 式 为 HH taa, 4 
且 当 该 多 项 式 仅 为 本 原 多 项 式 时 ， 寄 存 器 循环 可 以 获得 除 0 外 的 最 大 长 度 271 个 状态 ， 
如 2/5-1-65535. 
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图 10-2 ”标准 的 斐 波 那 契 LFSR 


寄存 器 的 初始 状态 被 称 为 种 子 ， 每 次 寄存 器 生成 新 的 数据 都 是 基于 其 当前 状态 经 过 
线性 变换 所 得 。 本 原 多 项 式 通过 “ 按 位 XOR 运算 ”这 一 常见 的 单 比特 线性 函数 和 移 位 操作 ， 
就 能 生成 循环 周期 非常 长 的 随机 序列 。 程 序 10-8 为 基于 此 思想 实现 的 随机 数 生成 器 。 
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程序 10-8 基于 斐 波 那 契 LFSR 的 随机 数 生成 器 
proc fcmp outlib-work.prob.random; 
function RandLFSR(lfsr); 
outargs lfsr; 


bit-bAnd( 
bXOR( 
bXOR( 
bXOR( 
bRSHIFT( lfsr, 0), 
bRSHIFT( lfsr, 2) 
) ， 
bRSHIFT( lfsr, 3) 
) 
bRSHIFT( lfsr, 5) 
) ， 
1); 
lfsr-bXOR( 
bRSHIFT (1fsr,1), 
BLSHIFT(bit, 15)); 
return (lfsr); 
endsub; 
run; 


options cmplib=work.prob; 
data _null_; 
x-44257; /* 大 于 0 的 种 子 数 ， 即 十 六 进 制 的 OACE1x;*/ 
do i-1 to 15; 
x-randLFSR (x); 
put x Q0; 
end; 
run; 


系统 输出 前 15 个 伪 随 机 数 如 下 : 


22128 43832 21916 10958 5479 35507 17753 8876 37206 51371 58453 29226 14613 
7306 36421 


4. 位 操作 应 用 一 一 枚 举 子 集 


给 定 一 个 集合 5S， 如 果 我 们 要 枚 举 该 集合 的 所 有 可 能 的 子 集 。 假 定 集合 个 数 为 N, 
则 0 到 2 个 整数 刚好 可 以 映射 该 集合 的 所 有 子 集 。 比 如 ， 集 合 {a, b, ce}, N=3， 则 0 到 
7 (2-1) 共 8 个 整数 的 二 进 制 值 为 000，001，010，011，100，101，110，111。 假 
设 1-3 位 分 别 对 应 a、bB、c 三 个 字母 ， 如 果 特 定位 为 1 则 表示 该 元 素 在 子 集中 ， 共 
可 得 8 个 子 集 : C) , {a};{5}; {ab}, {c}; tac}, (Geo), Gabe) 这 些 子 集 正 是 该 集 
合 所 有 可 能 的 子 集 ， 其 代码 实现 如 程序 10-9 所 示 。 

程序 10-9， 枚 举 集合 的 所 有 可 能 子 集 

data null ; 


S- "abc" ; 
length subset $ 4 ; /*length(S)-*1*/ 


n-length(S); 
do i-0 to bLShift(1,n )-1; 
subset-" "; 
do j-0 to n-1; 
if bAnd( i , bLShift(1,j))^-0 then do; 
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e-substr(S,j*1,1); 
subset-trim(subset) || trim(e) ; 
end; 
end; 
put "subset[ " i "]-" subset; 
end; 
run; 


系统 输出 : 


subset[ 
subset [ 
subset [ 
subset[ 
subset [ 
subset [ 
subset [ 
subset [ 


枚 举 子 集 可 用 于 生成 可 能 的 口令 组 合 ， 在 某 些 网 络 入 侵 和 软件 破解 时 非常 有 用 。 在 
一 般 的 数据 分 析 中 更 多 的 是 利用 二 进 制 表示 的 这 一 特性 ,表示 一 些 树 状 结构 的 数据 序列 。 


waauwwnbho 
y d n » qon wg 
cpaoapmUon 
v 


了 


扩展 SAS 功能 


动态 链接 库 (Dynamic Link Library) 是 操作 系统 级 别 的 可 重用 指令 集合 。 比 如 ， 
Windows 平台 的 *DLL 和 Unix 平台 的 *.so 文件 ， 它 使 各 种 计算 机 语言 在 编译 后 能 够 彼 
此 调用 。 用 户 可 以 将 一 种 计算 机 编程 语言 写 的 程序 ， 编 译 成 动态 链接 库 后 可 以 被 另外 一 
种 计算 机 语言 加 载 和 调用 ， 从 而 实现 了 代码 逻辑 高 级 复 用 。 

尽管 SAS 系统 已 经 具有 极其 强大 的 算术 、 人 逻辑、 日期/ 时间、 字符 串 、 文 件 管理 、 
统计 、 财 务 、 经 济 等 各 方面 函数 库 ， 但 SAS 依然 保留 了 编程 语言 的 开放 性 。 比 如 ， 我 们 
可 以 在 SAS 语言 环境 中 调用 操作 系统 DLL 动态 库 中 已 经 实现 的 功能 ， 也 可 以 调用 用 户 
以 其 他 计算 机 语言 开发 的 DLL 函数 库 ， 如 自 定义 的 数据 加 密 功能 ， 操 作 系 统 环境 检测 、 
并 发 文件 读 写 等 。SAS 作为 一 种 面向 分 析 的 第 四 代 计 算 机 语言 ， 它 并 不 希望 把 自己 设计 
的 过 于 复杂 ， 但 希望 保留 足够 的 扩展 性 ， 让 用 户 可 以 在 SAS 语言 中 调用 任何 Windows 
API 函数 以 及 用 户 自 定义 函数 库 ， 本 章 以 实例 探讨 如 何在 SAS 中 复 用 已 有 的 DLL 函数 
库 以 及 如 何 自己 编写 DLL 函数 库 来 扩展 SAS 功能 。 


11.1 通过 Module 调用 外 部 DLL KZ 


要 在 SAS 语言 中 调用 外 部 语言 编写 的 DLL 函数 库 ， 可 以 在 DATA 步 中 通过 调用 
Call Module 例 程 和 ModuleN, ModuleC 函数 实现 ， 也 可 以 在 PROC IML 过 程 步 中 调用 
Call Modulel 例 程 和 ModuleIN 和 ModuleIC 函数 实现 。 

由 于 SAS 内 部 使 用 浮 点 数 和 字符 型 两 种 基本 数据 类 型 ， 这 些 函 数 在 调用 外 部 DLL 
函数 时 需要 有 一 个 由 SASCBTBL 文件 引用 所 指向 的 文本 文件 ， 用 于 描述 SAS 如 何 
变换 参数 和 函数 接口 调用 。 它 包括 参数 列表 和 返回 值 等 信息 ， 称 为 SASCBTBL 属性 
文件 。 一 个 SASCBTBL 属性 文件 可 以 包括 一 个 或 多 个 函数 的 接口 描述 信息 ， 其 格式 示 
例如 下 : 


Routine MessageBoxA module=USER32 minarg=4 maxarg=4 
stackpop=called returns=short; 

Arg 1 input num format=pib4. byvalue; * hWnd; 

Arg 2 input char format=$cstr200.; * lpText ; 

Arg 3 input char format-$cstr200.; * lpCaption ; 

Arg 4 input num format-pib4. byvalue; * Style; 


从 上 面 的 内 容 可 以 看 出 ， 该 描述 其 实 就 是 函数 的 签名 信息 加 上 SAS 特定 的 格式 化 信 
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息 。 该 文本 描述 了 在 SAS 中 调用 标准 的 Windows API 系统 消息 框 函 数 MessageBoxA 所 
需 接口 定义 ， 而 该 Windows API 函数 等 价 的 C++ 定义 如 下 : 


int WINAPI MessageBox ( 
In opt HWND hWnd, 
In opt LPCTSTR lpText, 
_In opt LPCTSTR lpCaption, 
In. UINT uType 

Ja 


随 着 计算 环境 进入 64 位 时 代 ， 微 软 公司 已 经 在 MSDN 文档 上 逐渐 统一 Win32 函数 
定义 原型 。 早 些 年 MessageBoxA 和 MessageBoxW 分 别 表示 ANSI 版 和 UNICODE 版， 
而 如 今 在 MSDN 文档 上 已 逐渐 统一 。 完整 的 Win32 API 系统 函数 描述 参见 : https:// 
msdn.microsoft.com/en-us/library/windows/desktop 

现在 我 们 将 前 面 的 SASCBTBL 属性 文件 保存 到 文本 文件 C:\temp\msgbox.source 中 。 
这 样 我 们 在 SAS 语言 中 通过 特定 文件 引用 就 可 以 像 调 用 SAS 系统 函数 一 样 方便 地 调用 
Win32 API 函数 MessageBoxA 了 。 程序 11-1 演示 了 如 何 直接 将 数据 行 中 的 描述 文本 保存 
到 外 部 文件 中 : 

程序 11-1 将 数据 行 中 的 接口 定义 写 出 到 外 部 文本 文件 中 


data null ; 
input; 


file "C:\temp\msgbox.source"; 

length line $ 255; 

line-trim( infile ); 

put line; 

datalines4; 
Routine MessageBoxA module-USER32 minarg-4 maxarg-4 

Stackpop-called returns-short; 
Arg 1 input num format-pib4. byvalue; * hWnd; 
Arg 2 input char format-$cstr200.; * lpText ; 
Arg 3 input char format-$cstr200.; * lpCaption ; 
Arg 4 input num format-pib4. byvalue; * Style; 


run; 

在 SAS 代码 中 调用 DLL 函数 ， 首 先 需要 定义 名 称 为 SASCBTBL 的 文件 引用 ， 它 
指向 上 面 创建 的 文本 文件 ， 然 后 用 MODULE 例 程 或 函数 间接 调用 DLL 中 的 WIN32 API 
函数 。MODULE 例 程 或 函数 在 调用 前 会 自动 解析 文件 引用 SASCBTBL 所 指向 的 文件 
内 容 。 程 序 11-2 演示 了 如 何在 SAS 代码 运行 中 显示 MESSAGEBOX 消息 框 。 实 际 上 ， 
Windows 平台 上 的 任何 图 形 界面 元 素 在 SAS 中 都 是 可 以 自由 调用 的 。 

程序 11-2 在 SAS 中 使 用 MODULEN 调用 Win32 API 函数 ， 接 口 定义 来 自 <ascbtbl 


filename sascbtbl 'C:\temp\msgbox.source'; 


data null ; 
rc = modulen ( 'MessageBoxA', 0 ，" 唯 有 变化 ， 才 是 永恒 ! ', "标题 '，4) ; /* 返 回 0-7*/ 
array msg[8] $ (" 内 存 溢出 "， "ok", "Bü", "ik", "EW", "忽略 "，"” 是 "，" 否 ") 
put "NOTE: 用 户 点 击 [ " msg[rc*1] "]"; 

run; 
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在 SAS 中 执行 上 面 的 程序 会 弹出 Windows 消息 窗口 ， 并 且 日 志 中 会 输出 你 选择 的 
按钮 是 哪 一 个 〈 见 图 11-1) 。 你 可 以 更 改 最 后 一 个 参数 的 值 来 获得 不 同 的 消息 框 。 这 种 
调用 机 制 几乎 让 SAS 语言 跟 C/C++ 一 样 可 以 调用 操作 系统 平台 上 的 任何 功能 ， 如 有 需 
要 ， 用 户 也 可 在 SAS 代码 运行 过 程 中 显示 任何 Windows 用 户 操作 界面 。 


标题 


唯 有 变化 ， 才 是 永恒 ! 


EN 


图 11-1 在 SAS 代码 中 弹出 Windows 消息 窗口 
与 上 面 的 SAs 代码 等 价 的 C 语言 调用 如 下 所 示 : 


int msgboxID -MessageBox (NULL, (LPCWSTR) L" 唯 有 变化 ， 才 是 永恒 ! " 
, (LPCWSTR) ”标题 ",4 ) ; 


同 理 , 也 可 在 SAS 宏 代码 里 实现 调用 Windows API 函数 , 程序 11-3 可 获得 同样 结果 。 


程序 11-3 在 SRAs 宏 中 调用 win32 RPI 函 数 
filename sascbtbl 'C:\temp\msgbox.source'; 
slet rc = $sysfunc (modulen (MessageBoxA, 0, bstr ( 唯 有 变化 ， 才 是 永恒 ! ) ，s%str (标题 ) 4))); 


文件 引用 SASCBTBL 除了 指向 一 个 外 部 的 *SOURCE 文件 外 ， 也 可 以 将 它 指 向 一 
个 SAS 内 部 的 CATALOG, CATALOG 是 存储 在 SAS 逻辑 库 内 的 一 种 存储 格式 ， 用 户 只 
需要 将 代码 : 


filename sascbtbl "C:\temp\msgbox.source"; 


更 改 为 
filename sascbtbl catalog 'work.winapi.msgbox.source'; 


此 时 引用 的 文件 保存 在 临时 逻辑 库 WORK. WINAPI 中 ， 为 了 让 SAS 代码 和 调用 接 
口 定义 存 于 同一 SAS 代码 文件 , 通常 采用 如 下 写法 , 这 样 就 不 必 维 护 额外 的 外 部 文件 ( 见 
程序 11-4) 。 


程序 11-4 将 数据 行 中 的 接口 定义 写 入 SASCBTBL 然后 直接 调用 win32 API 函 数 


filename sascbtbl catalog 'work.winapi.msgbox.source'; 


/* 函 数 调用 接口 定义 */ 
data null ; 
file sascbtbl; 
input; 
put infile ; 
datalines4; 
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Routine MessageBoxA module-USER32 minarg-4 maxarg-4 
Stackpop-called returns-short; 
Arg 1 input num format-pib4. byvalue; * hWnd; 
Arg 2 input char format-$cstr200.; * lpText; 
Arg 3 input char format-$cstr200.; * lpCaption; 
Arg 4 input num format-pib4. byvalue; * Style; 
run; 
/* CIR FL / 
data null ; 
rc = modulen ( 'MessageBoxA', 0 , ' 唯 有 变化 ， 才 是 永恒 ! ' ，“' 标 题 '，3) ; 
put rc-; 
run; 


如 果 用 户 没有 指定 SASCBTBL 文件 引用 ，SAS 的 MODULE 例 程 或 函数 不 会 对 参 
数 做 任何 调整 ， 而 是 尝试 直接 加 载 DLL 并 调用 目标 函数 。 然 而 这 种 调用 具有 很 高 的 风 
险 ， 因 为 它 涉及 操作 系统 层 的 指针 处 理 和 内 存 访问 ， 就 跟 在 C/C++ 语言 中 调用 操作 系统 
库 是 一 样 的 道理 。 此 时 处 理 不 当 可 能 会 引起 程序 崩溃 甚至 计算 机 重启 ， 所 以 笔者 只 建议 
有 Windows 开发 经 验 的 高 级 SAS 编程 人 员 使 用 这 种 扩展 技术 。 

* SASCBTBL 语 法 定义 

表 11-1 列 出 了 SAS 系统 提供 的 6 个 Module 例 程 或 函数 ， 分 别 用 在 DATA 步 和 
PROC IML 过 程 步 中 调用 。 


表 11-1 DATA 步 与 SAS/IML 可 用 的 模块 函数 


使 用 场景 包含 向 量 或 矩阵 参数 (PROC IML 专用 ) 
没有 返回 值 时 使 用 


返回 值 为 数值 类 型 时 使 用 
返回 值 为 字符 类 型 时 使 用 


SASCBTBL 接口 描述 文件 主要 包括 两 部 分 内 容 : 方法 定义 和 参数 列表 OLK 11-2) 。 
它 是 一 种 抽象 的 函数 签名 描述 ， 仅 在 调用 上 面 的 6 个 例 程 或 函数 时 才 用 。 调 用 模板 文件 


中 也 可 使 用 SAS 行 来 注释 。 
R 11-2 SASCBTBL 接口 描述 文件 说 明 

ROUTINE MethodName 定义 函数 名 称 ， 大 小 写 敏感 
<MINRRG=minarg> 允许 的 最 小 参数 个 数 
<MAXARG=maxarg> 允许 的 最 大 参数 个 数 
<CALLSEQ=BYADDR | BYVALUE> 调用 方式 : 按 地 址 | 按 值 传递 参数 
«STACKORDER-R2L | L2R» 参数 压 栈 顺序 : 从 右 到 左 | 从 左 到 右 
<STACKPOP=CALLER | CALLED» 弹 栈 方式 : 由 调用 者 | 被 调用 者 弹 栈 
«TRANSPOSE-YES | NO» 是 否 转 置 矩 阵 

<MODULE=name> 源 DLL 动态 库 名 称 ， 系 统 路 径 中 自动 搜索 
<RRCH=16/32> 体系 结构 : 16 位 | 32 位 体系 结构 
<DLLTYPE=32 | 64 | X32 | X64> 动态 库 类 型 : 32164， 仅 限于 Windows 


«RETURNS-SHORT | USHORT | LONG | ULONG | | 返回 值 类 型 ， 共 8 种 
INT64 | DOUBLE | DBLPTR | CHAR«n»» 
«RETURNREGS-DXAX»; 返回 值 寄存 器 
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GER) 


ARG ArgumentNumber 参数 的 编号 ， 从 1 开始 ， 不 需要 名 称 
<INPUT | OUTPUT | UPDATE» 访问 类 型 : 输入 参数 | 输出 参数 | 可 写 参数 
«NUM | CHAR» 数据 类 型 : 数值 | 字符 类 型 
«BYADDR | BYVALUE» 参数 传递 方式 : 按 地 址 / 按 值 传递 

指针 变量 应 使 用 按 地 址 传递 


<FDSTART> 指示 本 参数 开始 一 个 值 块 ， 后 续 参数 为 该 结构 体 
的 一 部 分 

«REQUIRED | NOTREQD» 指示 参数 是 必 选 还 是 可 选 

«FORMAT-format»; 处 理 时 的 输入 输出 格式 

* Comments in SASCBTBL; 可 以 包括 以 * 开头 ， 分 号 结束 的 行 注释 


参数 中 如 果 出 现 缺 失 值 〈 不 管 是 任何 形式 的 缺失 值 .还 是 .或 .A) ， 它 们 在 调用 前 
都 会 被 自动 转换 成 0 再 进行 调用 。 

由 于 SAS DATA 步 中 只 有 数值 和 字符 两 种 数据 类 型 ， 因 此 我 们 需要 使 用 各 种 SAS 
格式 化 功能 来 对 数据 作 变 换 ， 从 而 符合 函数 调用 的 规则 。 表 11-3 列 出 了 C 语言 数据 类 
型 和 对 应 SAS 输入 输出 格式 之 间 的 映射 关系 。 


表 11-3 C 语言 数据 类 型 和 对 应 SAS 输入 输出 格式 之 间 的 映射 关系 
C 语言 数据 类 型 SAS 输入 输出 格式 


RB4. FLOATA. 


zz 
IB4. 
IB2. 
PIB4. 
PIB2. 


IB4. (32bit SAS) IB8. (64bit SAS) 
char[w] 长 度 为 w 的 字符 串 $CHARw. 
\0 结尾 的 字符 串 ， 最 大 w 个 字符 $CSTRw. 
32- 位 或 64- 位 的 指针 ， 取 决 于 OS SPTR_ 
char 当 作 short 按 值 传递 SBYVAL2. 
char 当 作 long 按 值 传递 SBYVALA. 
char 当 作 double 按 值 传递 SBYVALS. 


其 中 任何 不 以 S 开头 的 格式 都 是 数值 变量 或 表达 式 ， 但 如 果 数 值 变量 遇 到 $ 开头 的 
格式 ， 如 SCHAR， 则 数值 将 会 被 用 BEST. 格式 自动 转化 为 字符 串 《〈 长 度 默认 由 BEST. 
格式 决定 ) 进行 调用 ， 调 用 后 改变 的 字符 串 会 再 按照 标准 的 INFORMAT 转换 回 数值 。 

如 果 传 递 给 MODULE 例 程 或 函数 的 是 字符 类 型 ， 而 参数 定义 中 指定 了 某 个 数值 格 
式 ， 则 字符 串 使 用 标准 输入 格式 转换 为 一 个 数值 ， 调 用 返回 时 数值 再 被 按照 长 度 为 字符 
参数 长 度 的 BEST. 格式 转化 回 字 符 串 。 


SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


另外 ， 在 调用 Win32 API 函数 时 ， 会 用 到 微软 MSDN 文档 中 定义 的 一 系列 
Microsoft 特定 数据 类 型 ， 如 HKEY、LPCSTR、DWORD、REGSAM,、PHKEY 等 ， 可 
以 查看 MSDN 文档 映射 到 标准 C 语言 数据 类 型 ， 结 构 体 或 指针 类 型 上 ， 再 参照 表 11-3 
来 指定 恰当 的 转化 格式 。 


11.2 用 C 语言 开发 用 户 梢 数 库 


如 果 我 们 调用 的 函数 不 是 Win32 API， 而 是 自己 用 C/C++ 语言 编写 的 代码 ， 则 C/C++ 
代码 必须 编译 为 特定 格式 的 动态 库 (DLL) 。 鉴 于 越 来 越 多 的 硬件 机 器 是 64 位 的 环境 
且 SAS 安装 在 64 位 Windows 环境 上 ， 下 面 以 64 位 的 运行 环境 为 例 展示 如 何 用 C 语言 
开发 自 定义 DLL 函数 库 并 在 64 位 的 SAS 环境 中 调用 它 ， 这 样 就 能 根据 分 析 业 务 需 要 ， 
使 用 C/C++ 扩展 计算 逻辑 和 算法 ， 然 后 在 SAS 代码 中 调用 它 。 


11.2.1 准备 64 位 C 编译 环境 


首先 我 们 需要 有 能 够 编译 C 语言 为 64 位 DLL 动态 库 的 开发 环境 , 其 准备 工作 如 下 。 

(1) 安装 64 位 的 GCC 编译 器 : 由 于 默认 minGW 只 提供 32 位 版 本 供 安 装 和 使 

用 ， 可 以 从 http://tdm-gcc.tdragon.net/download 下 载 ttm64-gcc-5.1.0-2.exe 来 建立 64 位 

Windows 环境 的 GCC 编译 环境 。 使 用 默认 选项 运行 tdm64-gcc-5.1.0-2.exe 将 安装 环境 到 
CATDM-GCC-64 路 径 下 ， 并 创建 开始 菜单 快捷 方式 : 


C:\ProgramData\Microsoft\Windows\StartMenu\Programs\TDM-GCC-64 
\MinGW Command Prompt 


(2) 点 击 上 面 的 快捷 方式 ， 或 运行 如 下 DOS 命令 即 可 进入 tdtm64-gcc-5.1.0-2 编译 
环境 。 


C:\>%comspec® /k ""C:\TDM-GCC-64\mingwvars.bat"" 


G) 为 了 测试 GCC 编译 环境 ， 可 以 创建 如 下 HelloWorld.c 文件 并 保存 到 C:\temp 
目录 〈 见 程序 11-5) 。 


程序 11-5 HelloWorld.c 
fÁinclude "stdio.h" 


int main(){ 


printf("Hello,world!n"); 
} 


(4) 在 GCC 编译 命令 行 窗口 中 切换 当前 路 径 到 C:temp， 并 执行 如 下 编译 命令 。 


C:\>cd C: VTemp 
C:VTemp»gcc helloworld.c -o helloworld.exe 
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如 果 能 成 功 编译 出 可 执行 文件 helloworld.exe 且 执 行 它 能 输出 “Hello World!" ， 则 
说 明 GCC 编译 环境 安装 成 功 ， 后 面 可 用 该 编译 器 来 生成 64 位 的 DLL 动态 库 。 


11.2.2 ”开发 用 户 自 定义 动态 库 


(1) 创建 用 户 自 定义 C 代码 : 为 演示 目的 我 们 只 编写 CubeSum 函数 用 来 计算 两 个 
双 精 度 浮 点 数 的 立方 和 x+H”( 见 程序 11-6) ， 实 际 项 目 中 会 利用 C 语言 开发 一 些 较为 
复杂 耗 时 的 计算 和 分 析 罗 辑 。 
程序 11-6 CubeSum.C 


#include <windows.h> 
#include <math.h> 


double __stdcall cubesum(double a, double b) ( 
return pow(a, 3) + pow(b, 3) ; 
J 


有 两 点 需要 特别 注意 : 四 如 果 引 用 了 其 他 C 语言 的 头 文件 ， 需 要 将 它 一 并 
引用 ， 如 powO 函数 包含 在 math.h 头 文件 中 ; 名 在 需要 导出 的 函数 前 面 添 加 方法 修 
饰 __stdcall 。 

(2) 执行 如 下 编译 命令 ， 将 源 文件 CubeSum.c 编译 成 标准 可 调用 的 动态 库 
CubeSum.dll 


gcc cubesum.c -o cubesum.dll -m64 -shared 


编译 成 功 后 ， 可 以 使 用 C:\Windows\System32\Rundll32.exe 做 简单 的 测试 ， 检 查 我 
们 的 DLL 是 否 编译 完整 。 如 果 命 令 执行 报错 说 明 动 态 库 的 依赖 没 找到 或 者 存在 其 他 问 
题 。 检 测 命令 为 


C:\Windows \System32\rundll32.exe cubesum.dll,cubesum 1 2 


(3) 为 了 让 编译 的 动态 库 能 够 被 操作 系统 上 的 其 他 程序 调用 ， 通 常 需要 把 DLL 放 到 
Windows 系统 环境 变量 PATH 所 指定 的 路 径 中 ， 最 典型 的 做 法 是 把 DLL 文件 放 到 系统 目 
录 C:\Windows\System32 中 ， 这 样 DLL 就 可 以 被 该 计算 机 上 任何 目录 中 的 应 用 或 SAS 
程序 调用 。 


注意 : 在 某 些 Windows 10 系统 上 用 DOS 命令 行 复制 它 到 C:\Windows\System32 
会 失败 ， 因 为 该 环境 上 操作 系统 会 显 式 要 求 你 具有 管理 员 权 限 才 可 更 改 C:\Windows\ 
System32 目录 中 的 内 容 。 


(4) 为 了 让 C 语言 编译 的 动态 库 能 够 被 SAS 程序 调用 ， 同 样 需要 生成 SASCBTBL 
属性 文件 。 该 文件 描述 了 每 一 个 需要 被 SAS 调用 的 函数 接口 定义 ， 源 DLL 和 参数 序列 
描述 ， 其 本 质 是 调用 接口 函数 签名 。CubeSum 函数 的 调用 接口 定义 如 程序 11-7 所 示 。 
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程序 11-7 cifificubesum 的 接口 定义 
data null ; 
file sascbtbl; 
input; 
put infile ; 
datalines4; 
Routine cubesum minarg-2 maxarg-2 stackpop-called 
module- cubesum returns - double; 
Arg 1 num byvalue format-rb8.; arg 2 num byvalue format-rb8.; 


run; 
(5) 如 果 SASCBTBL 属性 文件 生成 成 功 ， 则 可 以 在 SAS 的 数据 步 或 者 PROC IML 
里 面 调用 该 CUBESUM.DLL 动态 库 中 的 函数 〈 见 程序 11-8) 。 调 用 的 时 候 需 要 指定 同 
FÉRJ SASCBTBL 属性 文件 位 置 ， 如 果 调 用 模板 定义 在 SAS CATALOG 中 ， 调 用 方 也 要 
使 用 与 之 匹配 的 CATALOG 路 径 。 


程序 11-8 调用 Cubesum 函 数 的 sas 程序 示例 
filename sascbtbl catalog "work.interop.cubesum.source"; 
data null; x = 3; 


y-u 

z = modulen( 'cubesum', x,y); 

put "NOTE: CubSum( " x "," y " )=" z; 
run; quit; 


如 果 成 功 调用 ， 在 SAS 日 志 中 应 该 会 输出 : 


NOTE: CubSum (3,1)=28 


11.3 PROTO 编写 C 代码 或 注册 外 部 DLL 


自从 SAS 9.2 引入 PROC FCMP 过 程 步 后 ， 用 户 可 以 用 SAS 语言 来 编写 用 户 自 定义 
函数 或 例 程 ， 编 写 的 函数 / 例 程 可 以 广泛 用 于 SAS DATA 步 ， 这 是 SAS 语言 的 里 程 碑 式 
的 进步 。 然 而 SAS 走 得 更 远 ， 它 提供 PROC PROTO 过 程 步 允 许 用 户 在 SAS 语言 中 直接 
J C 语言 和 数据 类 型 编写 的 C 函数 ， 这 些 C 函数 一 旦 注册 后 就 可 直接 在 SAS 的 PROC 
FCMP 和 PROC COMPILE 过 程 步 的 SAS 函数 或 例 程 中 调用 。 

用 户 在 PROC PROTO 里 直接 编写 C 语言 代码 ， 运 行 SAS 时 那些 源 代码 会 自动 编译 
并 注册 到 SAS 运行 环境 中 ， 此 时 那些 代码 也 可 在 FCMP 函数 或 例 程 中 随意 调用 。 尽 管 
SAS DATA 步 不 能 直接 调用 PROC PROTO 中 用 C 语言 编写 的 那些 函数 ， 但 通过 PROC 
FCMP 函数 的 包装 桥接 ，SAS 数据 步 内 也 可 以 非常 方便 地 像 调 用 SAS 系统 函数 一 样 调用 
PROC PROTO 中 那些 C 语言 编写 的 函数 。 

PROC PROTO 也 支持 从 外 部 动态 库 中 加 载 机 器 指令 代码 ， 这 是 SAS 程序 里 调用 
外 部 动态 库 的 另外 一 种 方法 。 假定 DLL 文件 已 被 复制 到 系统 路 径 C:\Windows\System32 
中 ， 下 面 的 代码 〈 见 程序 11-9) 将 加 载 我 们 自己 编写 的 DLL 文件 到 当前 SAS 运行 环 
境 中 。 
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程序 11-9 使 用 PROC PROTO 链接 到 外 部 动态 库 

proc proto package-work.proto.cubesum stdcall; 
link "C:\Windows\System32\cubesum.dll"; 
double cubesum(double, double); 

run; 


在 前 面 生成 DLL 函数 库 时 我 们 指定 了 — stdcall 调用 规范 ， 而 ^ stdcall (X YE PC ^E 
台 上 支持 ， 更 一 般 地 如 果 编 译 一 个 C 函数 并 且 希 望 能 够 从 DLL 导出 给 别人 使 用 ， 需 要 
在 函数 声明 时 指定 它 。 可 在 开发 C 语言 函数 CUBESUM 时 用 — declspec (dllexport) 去 
声明 函数 ， 比 如 : 

. declspec (dllexport) double cubesum (double, double) ; 


实际 上 ， 对 于 一 些 简单 的 分 析 项 目 和 逻辑 ， 完 全 不 必要 用 DLL 库 进 行 包装 ， 而 是 
在 SAS 程序 里 直接 用 C 语言 编写 分 析 逻 辑 即 可 。 比 如 ， 前 面 的 CubeSum 函数 ， 可 直接 
在 PROC PROTO 里 用 C 语言 直接 编写 源 代 码 〈 见 程序 11-10) 。 


程序 11-10 PROC PROTO 直接 用 C 语言 实现 计算 函数 ( 斜体 部 分 为 C 语言 代码 ) 
proc proto package-work.proto.cubesum; 
double cubesum(double, double); 
externc cubesum; 
double cubesum(double x, double y) 
{ 
return pow(x,3)* pow(y,3); 
i 
externcend; 
run; 


为 了 能 在 SAS 数据 步 里 调用 自 定义 的 CUBESUM 函数 ， 需 使 用 PROC FCMP RE 
装 桥接 PROTO 包 一 一 用 INLIB 选项 来 指定 被 引用 的 包 ， 并 定义 一 个 CUBESUM FCMP 
函数 〈 见 程序 11-11) o 


程序 11-11 FCMP 函数 封装 PRoTO 中 链接 的 外 部 函数 ， 以 供 DATA 步 使 用 
proc fcmp inlib-work.proto outlib-work.funcs.cubesum; 
function cubesum fcmp(x, y); 
rc-cubesum(x, y); return(rc); 
endsub; 
run; 
quit; 


运行 上 面 代 码 后 ，cubesum femp 函数 就 已 经 可 用 了 ， 此 时 我 们 就 可 在 DATA 步 里 
随便 调用 该 PROTO 包 中 的 C 函数 了 〈 见 程序 11-12) 。 


程序 11-12， 调 用 FCMP->PROTOo->DLIL 函数 示例 
options cmplib-(work.proto work.funcs); 
data null ; 

x-300; y-100; 

z-cubesum fcmp(x,y); put z-; 
run; 


系统 输出 结果 : z-28000000 


ENNNNUEEHSASHCRPHS. 从 程序 员 到 数据 科学 家 


PROC PROTO 创建 的 C 函数 经 过 PROC FCMP 桥接 后 ，C 函数 可 在 DATA 步 中 进 
行 调用 。 这 种 扩展 功能 将 在 后 面 章节 中 探讨 如 何 使 用 指针 构建 复杂 数据 结构 时 会 用 到 。 


小 知识 : SAS 是 世界 上 少数 拥有 C 编译 器 核心 技术 的 软件 公司 ，20 世纪 80 年 
代 SAS 公司 为 IBM 主机 系统 重 写 SAS 系统 时 决定 自己 开发 C 编译 器 ，1985 年 11 月 
SAS 公司 发 布 了 第 一 个 C 编译 器 2.10C 版 本 ， 并 在 1986 年 收购 了 PC 机 C 编译 器 公司 
Lattice. SAS 的 编译 器 支持 IBM 大 型 机 和 IBM 个 人 电脑 交叉 编译 ， 它 让 C 语言 编写 的 
代码 能 够 运行 在 VM/CMS. MVS 和 MVS/XA 上 ; SAS 的 MVS 编译 器 技术 甚至 比 IBM 
的 WhiteSmith C 编译 器 还 好 。SAS 公司 私有 的 SAS/C 编译 器 为 SAS 系统 强大 的 技术 实 
力 提供 了 保障 。 所 有 的 SAS 软件 核心 技术 代码 和 过 程 步 都 是 基于 SAS 自己 的 C 编译 器 
编译 ， 它 保证 了 SAS 软件 异乎 寻常 的 跨 平 台 迁 移 性 和 卓越 的 系统 性 能 。SAS/C 编写 的 代 
码 能 够 运行 在 多 达 十 余 种 主流 的 Unix/Linux 系统 和 Windows/MVS 操作 系统 之 上 ， 主 要 
原因 之 一 就 是 SAS 拥有 自己 的 核心 编译 技术 。 


数据 结构 一 一 数组 


在 计算 机 程序 员 眼 中 ， 数 据 结构 和 算法 是 构成 编程 世界 的 基础 。 除 了 常量 和 变量 之 
外 ， 我 们 无 法 得 知 全 能 的 上 帝 是 否 也 曾 用 过 数组 、 链 表 、 队 列 、 二 又 树 、 和 矩阵 、 有 向 图 、 
无 向 图 之 类 的 数据 结构 对 这 个 世界 进行 编程 。 实 际 上 ， 数 据 结构 只 是 一 种 信息 的 组 织 和 
表达 ， 是 为 了 呈现 程序 世界 中 变量 或 对 象 之 间 的 罗 辑 关系 而 构建 的 信息 组 织 单元 。 不 可 
和 否认 的 一 点 是 ， 计 算 机 科学 中 的 数据 结构 和 算法 几乎 可 以 完美 表达 现实 世界 中 的 任何 现 
象 或 事物 的 关系 。 任 何 复杂 的 问题 都 可 通过 恰当 的 数学 抽象 ， 然 后 通过 数据 结构 和 算法 
在 计算 机 上 得 以 重 构 和 求解 。 

本 章 将 站 在 程序 员 的 角度 思考 如 何在 SAS 中 实现 传统 计算 机 科学 中 的 基础 数据 结 
构 ， 首 先 回顾 一 下 由 相同 类 型 变量 组 成 的 变量 集合 ， 也 是 最 早出 现 和 最 重要 的 复合 数据 
结构 “数组 ”。 


12.1 数组 


基本 数据 类 型 之 外 ， 最 常用 的 数据 结构 为 数组 ， 它 就 是 通过 数组 名 和 索引 或 者 称 
为 下 标 ) 对 一 系列 的 变量 进行 引用 的 数据 结构 ， 如 A[1], B[L2]. 5 C/C 不同 ，SAS 
数组 的 第 一 个 元 素 通常 由 下 标 为 1 开始 索引 ， 但 用 户 也 可 以 改变 初始 下 标 使 它 从 0 开始 。 
根据 维度 数量 可 以 将 数组 分 成 一 维 数组 和 多 维 数组 ， 实 践 中 用 得 最 多 的 是 二 维 数 组 。 在 
高 等 数学 计算 和 数值 分 析 中 ， 二 维 数组 通常 和 数学 上 的 矩阵 概念 相关 。 掌 握 数组 以 及 它 
和 SAS 数据 集 之 间 的 转换 是 在 SAS 中 进行 数值 计算 和 分 析 的 基础 。 

从 前 面 的 学 习 中 可 以 看 到 ，SAS 语言 提供 了 传统 DATA 步 、SAS 宏 、FCMP 以 及 
DS2 等 基础 子 系统 。 抽 象 的 数组 在 不 同 的 子 系统 中 具有 不 同 实现 和 语法 ， 但 它们 都 是 简 
单 的 线性 数据 结构 。 本 章 主要 关注 数组 这 种 数据 结构 与 SAS 数据 集 之 间 的 转换 ， 以 及 数 
组 在 各 子 系统 中 应 用 对 比 ; 最 后 举例 说 明 数 组 的 高 级 应 用 。 


12.1.1 DATA 步 数组 


DATA 步 数 组 包括 变量 数组 和 临时 数组 ， 它 们 都 使 用 ARRAY 语句 创建 ， 但 临时 数组 需 
HH TEMPORARY 修饰 且 不 需要 变量 映射 ， 默 认 不 输出 到 外 部 数据 集 。 程 序 12-1 展示 了 
如 何 从 DATA 步 数 据 行 获取 数据 构建 一 维 数组 并 计算 每 行 数据 的 和 ， 结 果 如 图 12-1 所 示 。 
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程序 12-1 ”从 数据 行 读 取 数 据 到 变量 数组 


data d; 
input cl-c3; /* 读 入 datalines 中 的 内 嵌 数 据 */ 
array c[3]; /* 定 义 sas 数组 ， 默 认 映 射 到 变量 c1-c3*/ 


total-sum(of c:); 
put c[*]- total-; /* 一 维 数组 c 就 对 应 每 一 行 记录 */ 
datalines; 

123 

456 


proc print data=d; 
title 'var array'; 
run; 


Obs c1 c2 c3 total 
a 1| 2| 3 6 
2| 4| 5| 6 15 


Afi ehm m, ae PR m 


12-1 DATA 变量 数组 


临时 数组 没有 变量 映射 ， 默 认 不 会 被 输出 到 外 部 数据 集 ， 使 用 方法 与 变量 数组 基本 
相同 。 但 它 与 变量 数组 有 细微 的 不 同 : 临时 数组 不 能 使 用 put a[*]=; 进行 输出 。 下 面 的 
例子 展示 了 从 数据 行 构建 二 维 临时 数组 的 简洁 用 法 〈 见 程序 12-2) 。 


程序 12-2 ”从 数据 行 读 取 数据 到 临时 数组 
data null ; 
array a [2,3] _temporary_; /* 临 时 数组 没有 变量 映射 */ 
do i = 1 to dim(a); 
do j=1 to dim(a,2); 
input x @@; 
a[i,j] = x; 
put a[i,j]- 80; /* 打 印 到 日 志 */ 
end; 
put; 
end; 
datalines; 
123 
456 
run; 


系统 输出 : 

a[1,1]-1 a[1,2]-2 a[1,3]-3 

a[2,1]-4 a[2,2]-5 a[2,3]-6 

除了 从 数据 行 获得 数据 ， 是 否 有 办 法 直接 从 外 部 数据 集 读 取 数 据 到 DATA 步 中 的 二 
维 数组 呢 ? 答案 是 肯定 的 。 下 面 的 例子 先 创建 一 个 演示 数据 集 ， 然 后 在 另 一 DATA 步 中 
基于 它 构建 数组 用 于 分 析 计 算 〔 见 程序 12-3) 。 

程序 12-3 ”将 数据 行 中 的 数据 读 到 二 维 数组 供 计算 分 析 之 用 

data dl; 


input cl-c3 80; 
datalines; 
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quos 
456 
data null ; 
array a[3] cl-c3;/* 映 射 */ 
array b[2,3] _temporary ; 
do i-1 to last; 
set dl point-i nobs-last; 
do j-1 to dim(b,2); /* 一 维 数组 赋 给 二 维 数组 */ 
b[i,j]-a([j]; 
end; 
end; 


do i = 1 to dim(b);/* 打 印 二 维 数组 ， 结 果 同 前 */ 
put b[i,1]= b[i,2]- b[i,3]=; 
end; 


stop; 
run; 


12.1.2 FCMP 数组 


运行 在 PROC FCMP 子 系统 中 ， 该 子 系统 提供 READ_ARRAY fl WRITE ARRAY 
系统 函数 实现 外 部 SAS 数据 集 和 FCMP 数组 之 间 的 自由 转换 ， 方 便 我 们 编写 各 种 统 
计 处 理 算法 。 程序 12-4 展示 了 如 何在 FCMP 中 利用 二 维 数组 对 数据 集 所 有 数据 遍历 
求 和 。 


程序 12-4 ÙRA SRs 数 据 集 到 FCMP 二 维 数组 
data d; 
input cl c2 c3; 
datalines; 
We 
456 


run; 


proc fcmp; 
array a[2,3] / nosymbols; 
rc-read array('d',a); /* 指 定 源 数据 集 d 和 目标 二 维 数组 a*/ 
/* 可 定制 读 入 顺序 和 个 数 ， 如 rc=read array('d', a, 'cl', 'c3');*/ 


sum-0; 
do i-1 to dim(a); 
do j-1 to dim(a,2); 
sum=sumta [i,j]; 
end; 
end; 
put sum-; 
run; 
quit; 


运行 代码 ， 系 统 输出 sum-21 


FCMP 数组 也 可 方便 地 用 WRITE ARRAY 函数 导出 SAS 数据 集 ( 见 程序 12-5) ， 
供 其 他 过 程 步 或 分 析 代 码 进一步 使 用 ， 结 果 如 图 12-2 所 示 。 
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程序 12-5 将 FCMP 二 维 数组 写 入 SAS 数据 集 


proc fcmp; 
array x[2,3] (1234 5 6); 
rc-write array('work.fcmp array', x); 


/* 也 可 指定 列 名 */ 

/*rc=write array('work.fcmp array', x, 'cl', 'c 
run; 
proc print data-work.fcmp array; 
run; 


Obs x1 x2 x3 
1| 1| 2| 3 
2| 4| 5| 6 


12-2 “导出 FCMP 数组 到 数据 集 


2', 'c3');*/ 


更 多 的 时 候 ， 会 利用 FCMP 函数 编写 可 重用 的 计算 逻辑 ， 比 如 根据 数学 定义 实现 平 
均 绝 对 偏差 函数 AVEDEV。 统 计 学 上 ， 偏 差 表 示 每 个 数值 与 平均 值 之 间 的 差 值 ， 而 平 
均 偏 差 表 示 每 个 偏差 绝对 值 的 平均 值 ，AVEDEYV 函数 可 用 来 衡量 数据 离散 程度 〈 见 


程序 12-6) 。 


程序 12-6 利用 数组 作为 ECMP 函 数 参数 进行 计算 
data d; 
input x 060; 
datalines; 
123456 
proc fcmp outlib-work.funcs.math; 
function avedev (d[*] ) ; /* 定 义 输入 数组 参数 ， 多 维 数组 也 相同 */ 
length-dim(d); 
sum-0; 
do i-1 to length; 
sum += d[i]; 
end; 


mean=sum/ length; /* 计 算 平均 值 */ 


sumdev-0; 
do i-1 to length; 
sumdev += abs( d[i]-mean ); 
end; 
avedev=sumdev/length;/* 计 算 偏 差 绝 对 值 总 和 与 平均 值 */ 
return (avedev); 
endsub; 


/* 演示 程序 */ 
array a[6] / nosymbols; 
rc-read array('d',a); 
avedev = avedev (a); 
put avedev-; 

run; 

quit; 


系统 输出 : avedev-l.5 
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更 多 时 候 是 在 DATA 步 内 调用 自 定义 函数 ， 此 时 函数 中 输出 的 结果 会 被 输出 到 SAS 
日 志 窗 口 ， 而 不 是 输出 窗口 〈 见 程序 12-7) 。 


程序 12-7 ”在 DATA 步 内 构造 数组 传递 给 ECMP 函 数 进行 处 理 
options cmplib-work.funcs; 
data null ; 
array a[6] temporary ; 
do i-1 to last; 
set d point-i nobs-last; 
a[il-x ; 
end; 
avedev = avedev (a); 
put avedev-; 
stop; 
run; 


在 计算 过 程 中 ， 有 时 需要 动态 创建 临时 数组 用 于 存放 计算 的 中 间 结 果 , 然而 在 编写 
代码 时 数组 长 度 并 不 确定 ， 因 此 需要 借助 CALL DYNAMIC ARRAY 例 程 来 扩展 数组 长 
度 ， 实 现 复杂 的 统计 学 计算 过 程 。 比 如 ， 下 面 的 例子 实现 了 WACKY 平均 标准 偏差 的 计 
算 逻 辑 , 其 中 临时 数组 t[ ] 存放 了 上 一 个 观测 的 值 用 于 后 续 计算 〈 见 程序 12-8) 。 


程序 12-8 ”在 FCMP 函数 中 使 用 动态 数组 
proc fcmp outlib-work.funcs.math; 
function avedev wacky (d[*]); 
length-dim(d); 
array t[1] /nosymbols; /* 定 义 临 时 数组 t 然后 扩展 长 度 为 length*/ 
call dynamic array(t, length); 


sum-0; 

do i-1 to length; 
sum += d[i]; 
if i»1 then t[i]=d[i-1];/* 给 临时 数组 赋值 */ 
else t[i]-0; 

end; 

mean-sum/length; 


sumdev-0; 
do i-1 to length; 
sumdev += abs( (d[i])-t[i] /2-mean ); 
end; 
avedev-sumdev/length; 
return (avedev); 
endsub; 
run; 
quit; 
/* 调 用 程序 示例 */ 
options cmplib=work.funcs; 
data d; 
array a[6]; 
do i-1 to 6; 
input x 80; 
a[i]-x; 


avedev wacky = avedev wacky (a); 
put avedev wacky-; 
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系统 输出 : avedev_wacky=1.25 


12.1.3 DS2 数组 


DS2 是 传统 DATA 步 的 强化 与 扩展 ， 它 不 但 有 更 强 的 数据 类 型 支持 和 作用 域 概念 ， 
而 且 它 支持 2 种 不 同类 型 的 数组 : 变量 数组 与 标准 数组 。 其 中 变量 数组 与 DATA 步 的 数 
组 相同 ， 程 序 12-9 展示 了 DS2 变量 数组 的 使 用 ， 其 输出 数据 集 MYDATA 中 的 最 后 一 列 
包含 每 行 数据 的 总 和 【结果 如 图 12-3 所 示 ) o 


程序 12-9 ps2 中 的 变量 数组 ， 默 认 会 输出 到 数据 集中 
data d; 
input cl c2 c3; 
datalines; 
123 
456 


proc ds2; 
data mydata (overwrite-yes); 
vararray double c[3]; /* 使 用 vararray 映射 c1,c2,c3*/ 
dcl double sum; 
method run(); 
set d; 
sum-sum(c[1], c[2], c[3]); /* 一 维 数组 va 映射 数据 集 每 行 */ 
end; 
enddata; 
run; 
quit; 
proc print data-mydata;run; 


Obs ci c2 c3 sum 
1| 1| 2| 3 6 
2| 4| 5| 6| 15 


~ m 


12-3 DS2 变量 数组 生成 数据 集 


DS2 标准 数组 与 C/C++ 的 数组 概念 相同 ， 程 序 12-10 综合 展示 了 如 何 利用 DS2， 计 
算 每 列 数据 之 和 并 将 它们 输出 到 数据 集 MYDATA 的 最 后 一 行 中 〈 结 果 如 图 12-4 所 示 ) o 


程序 12-10 DS2 中 的 标准 数组 ， 黑 认 不 会 输出 到 数据 集 
proc ds2; 
data nydata (overwrite-yes); 
dcl double s[3]; 
method run(); 
set d; 
s[1]*cl; s[2]*c2; s[3]*c3; /* 每 列 求 和 */ 
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output; 
end; 


method term(); 
cl-s[1]; c2-s[2]; c3-s[3]; /* 输 出 和 值 */ 
output; 
end; 
enddata; 
run; 
quit; 
proc print data-mydata; 
title 'std array'; 
run; 


Obs cl c2 c3 


3| 1| 2| 3 
2| 4| 5| 6 
3| 5| 7| 9 


12-4 DS2 标准 数组 生成 数据 集 


需要 特别 注意 一 点 ， 变 量 数组 会 自动 映射 PDV 变量 并 输出 ， 而 标准 数组 则 不 会 。 
程序 12-9 输出 结果 中 最 后 一 列 是 每 行 数据 的 和 ， 而 程序 12-10 输出 结果 的 最 后 一 行 是 输 
入 数据 集 每 列 的 和 。 


12.1.4 ”SAS 宏 数组 


在 SAS 宏 系 统 中 没有 所 谓 数 组 的 概念 ， 但 这 不 妨碍 利用 宏 自 身 的 特性 构建 宏 数 组 。 
阿 基 米 德 说 过 “给 我 一 个 支点 , 我 可 以 播 起 整个 地 球 ”。 这 里 要 说 的 是 , 给 我 们 一 个 变量 ， 
我 们 可 以 播 起 整个 数据 结构 ! 下 面 的 SAS 宏 代码 构建 出 一 个 拥有 10 个 元 素 的 “ 宏 数 组 ”， 
并 对 其 赋值 和 打印 〈 见 程序 12-11) 。 


程序 12-11 利用 多 重 解析 在 SAs 宏 中 模拟 一 维 数组 
*$macro MVAR ARRAY; 
$do i-1 $to 5; 
$1ocal a&i; 
$let a&i-&i ; 
sput a[si]-&&a&1; /+* 双 重 转 义 */ 
Send; 
%mend; 
3MVAR ARRAY; 


系统 输出 : 


a[1]-1 
a[2]-2 
a[3]-3 
a[4]-4 
a[5]-5 
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是 否 能 实现 SAS 宏 版 的 “二 维 数组 ”? 答案 也 是 肯定 的 。 这 种 方法 可 用 于 通过 
SAS 宏 模拟 数组 运算 或 利用 SAS 宏 在 DATA 步 和 PROC 步 之 间 交 换 数据 的 场景 ( 见 
程序 12-12) 。 


程序 12-12 ”利用 多 重 解析 在 SAs 宏 中 模拟 二 维 数组 
*macro MVAR 2DARRAY; 
$do i-1 $to 2; 
$do j-1 $to 2; 
$1ocal a&i. &j; 
$1et a&i. &j- $eval( (&i-1)*3 + &j ); 
sput a[&i,&j]-&&a&i. &j; /* 双 重 转 义 */ 
Send; 
send; 
%mend; 
*MVAR 2DARRAY; 


系统 输出 如 下 : 
a[l1,1]=1 
a[1,2]-2 
a[2,1]-4 
a[2,2]-5 


12.2 数组 应 用 : 高 精度 数值 计算 


数组 作为 一 种 元 素数 据 类 型 相同 的 简单 线性 结构 ， 它 的 用 途 非常 广泛 。 其中， 一 个 
特殊 用 途 是 利用 整个 数组 的 所 有 元 素来 表示 一 个 所 谓 的 “大 数 ”。 大 部 分 编程 语言 的 数 
值 数据 类 型 ， 由 于 采用 固定 字 节 长 度 的 存储 结构 ， 它 在 计算 过 程 中 可 能 因数 据 溢 出 有 效 
的 表达 范围 导致 精度 损失 ， 为 了 保证 计算 数据 精度 ， 可 基于 数组 这 一 线性 结构 来 构建 高 
精度 数值 运算 框架 。 

在 前 面 的 章节 中 我 们 探讨 了 生成 黄金 分 割 数 列 问题 ， 但 我 们 最 多 只 能 够 生成 78 位 
精确 表示 黄金 分 割 数列 ， 从 第 79 位 开始 实际 上 已 经 丢失 了 部 分 精度 。 为 了 能 够 生成 任 
意 长 度 的 黄金 分 割 数列 表示 ， 需 要 借助 数组 这 一 线性 结构 ， 将 多 个 数组 元 素 组 合 表示 一 
个 表达 范围 更 加 宽广 的 “大 数 ”。 笔 者 编写 的 SAS 程序 〈 见 程序 12-3) 可 生成 2048 位 
的 无 精度 损失 的 黄金 分 割 数列 ， 读 者 可 修改 参数 生成 任意 位 数 的 精确 黄金 分 割 数列 。 


程序 12-13 ”突破 8 字 节 存储 限制 的 黄金 数列 生成 器 ， 单 个 数组 元 素 表示 5 位 数字 
proc fcmp outlib-work.funcs.math; 
function add(a[*], b[*], c[*] ): 
outargs c; 
carry-0; 
do i-1 to dim(c); 
c[i]-a[i]t b[i]*t carry; 
if c[i]« 1E5 then carry-0; 
else do; 
c[i]-c[i]-1E5; 
carry-l; 
end; 
end; 
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return (carry); 
endsub; 
run; 


options cmplib-work.funcs; 
data Fbnc; 
/* 用 长 度 为 256 的 数组 表示 256*5 位 十 进 制 长 度 的 大 数 */ 
array Y1[256] temporary ; 
array y2[256] temporary ; 
array y [256] temporary ; 


do i-1 to dim(y);/* 初 始 化 */ 
y1[i]-0;y2[i]-0;y[i]-0; 
end; 


do n=1 to 2048;/* 计 算 2048 位 FBNC*/ 
if n=1 or n-2 then y[1]-1; 
else rc-add(yl,y2,y ); 


do i-1 to dim(y);/* 保 留 上 两 位 数 */ 
y2[il-ylli]; yllil-ylil; 
end; 


/* 合 并 结果 */ 
length s $ 32767; 


do i=dim(y) to 1 by -1; 
if y[i]^-0 then do; 
vstart-i; 


leave; 
end; 
end; 
do i-vstart to 1 by -1 ; 
s-trim(left(s)) || trim(left(put(y[il,z5.))):; 
end; 


do i-1 to length(s); 
if substr(trim(left(s)),i,1)^- "0" then do; 
s-substr (trim(left(s)),i); 
leave; 
end; 
end; 
keep s; 
output; /* 输 出 计算 结果 到 数据 集 */ 
end; 
run; 
proc print data-fbnc;run; 


运行 程序 生成 的 第 2048 个 无 精度 损失 的 黄金 分 割 数 列 为 如 下 428 位 的 超大 整数 : 

454153044374378942504557144629068920270090826129364442895118239027897145 
250928343568434971803477173043320774207501029966396250064078380187973638077 
418159157949680694899576625922604895968605634843621876639428348247300097930 
6575217575924408151880646518264800221975575899556551648206461735151382670421 
1517343602925990599710229276939710372081414109914714493582044185153918055170 
241694035610145547104337536614028338983073680262684101 
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列表 (List) 是 数组 之 外 最 简单 的 复合 数据 结构 ， 常 用 的 列表 类 型 包括 队列 和 堆栈 。 
其 中 队列 可 分 为 单 向 队列 、 双 向 队列 和 循环 队列 等 。 本 章 主要 探讨 在 SAS 中 如 何 实现 可 
重用 的 基础 数据 结构 ， 为 编写 高 级 数据 分 析 程 序 打 好 基础 。 


13.1 队列 


队列 “Queue) 在 抽象 概念 上 是 一 种 先进 先 出 〈First-In-Fist-Out) 的 线性 表 〈 见 
13-1) ， 具 体 可 以 通过 数组 或 者 链表 来 实现 。 队 列 从 前 端 进行 读 取 ， 在 后 端 进行 写 入 
或 添加 。 我 们 也 可 以 在 初始 化 队列 时 设置 队列 长 度 ， 用 来 控制 队列 的 容量 。 队 列 的 常用 
操作 包括 初始 化 、 入 列 、 出 列 、 遍 历 、 长 度 查询 、 是 否 为 空 和 清空 等 操作 。 


-Amm 


图 13-1 队列 示意 图 


在 SAS 中 实现 队列 有 多 种 方法 ， 分 别 适用 于 不 同 场景 。 笔 者 在 此 给 出 两 个 DATA 
步 中 可 重用 的 通用 队列 实现 方式 。 


13.1.1 函数 版 实现 与 示例 


基于 FCMP 函数 和 SAS 数据 集 实现 的 队列 ( 见 程序 13-1) 。 其 核心 思想 是 利用 
SAS 数据 集 作为 数据 持久 化 的 载体 ， 然 后 利用 FCMP 函数 读 写 数据 集 来 实现 队列 基本 操 
作 。 这 种 实现 由 于 涉及 数据 集 的 读 写 ， 也 就 是 说 ， 它 需要 进行 磁盘 文件 读 写 操作 ， 因 此 
它 只 适用 于 性 能 要 求 不 那么 高 的 场景 。 


程序 13-1 FCMP 版 的 队列 实现 ， 存 储 使 用 持久 化 数据 集 
Proc fcmp outlib=work.funcs.queue; 
/* 队列 - 初始 化 : 参数 为 队列 名 字 和 容量 */ 
function QueueDefine (name $, maxsize); 
array y[1] / nosymbols; 
if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
length-dim(x); 
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x[1]=maxsize; 
rc-write array(name, x); 
end; 
else do; 
if maxsize»0 then y[1]-maxsize; 
else call missing(y[1]); 
rc-write array(name, y); 
end; 
return (rc); 
endsub; 


/* 队列 - 入 列 : 将 value 入 列 */ 
function QueueEnqueue (name $, value); 
array y[1] / nosymbols; 


if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name, X); 
length-dim(x); 
maxsize-x[1]; 


if maxsize -. | (length-1)« maxsize then do; 
call dynamic array(y, length*1l); 
do i-1 to length; 
ylil-ex(il; 
end; 
y[length*l]-value; 
rc-write array(name, y); 
end; 
else do; 
put "ERROR: Queue is full"; 
rc-0; 
end; 
end; 
else do; 
call missing(y[1]); 
call dynamic array(y, 2); 
y[2]-value; 
rc-write array(name, y); 
end; 
return (rc); 
endsub; 


/* 队列 - 出 列 */ 
function QueueDequeue (name $, value); 
outargs value; 
array y[1] / nosymbols; 


if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 


length-dim(x); 
if length » 1 then do; 
call dynamic array(y, length-1); 
y[1]=x[1]; value-x[2]; 
do i-2 to length-1; 
ylil-ex[itl]; 
end; 
end; 
else do; 
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yl1]-x[11; 
put "WARNING: Queue" name "is EMPTY!"; 
end; 
rc-write array(name, y); 
end; 
else do; 
rc-0; 
end; 
return (rc); 
endsub; 


/* 队列 - 检测 长 度 */ 
function QueueLength (name $); 
array y[1] / nosymbols; 


if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
length-dim(x); 
rc-length-1; 

end; 

else do; 
rc-0; 

end; 

return (rc); 

endsub; 


/* 队列 - 是 否 为 空 */ 

function QueueIsEmpty (name $); 
rc=0; 
if QueueLength (name)=0 then rc-1; 
return (rc); 

endsub; 


/* 队列 - 清空 */ 
function QueueDelete (name $); 
array y[1] / nosymbols; 


if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
Y[1]=x[1]; 
rc-write array(name, y); 

end; 

else do; 
rc-0; 

end; 

return (rc); 

endsub; 


/* 队列 - 遍历 */ 
function QueueDump (name $); 
if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
length-dim(x); 
if length » 1 then do; 
do i-1 to length-1; 
value-x[i*l]; 
put "NOTE: " name "[" i 
end; 


"]-" value ; 
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end; 
else do; 
put "WARNING: Queue" name "is EMPTY!"; 
end; 
return(1); 
end; 
return(0); 
endsub; 
run; 
quit; 


程序 13-2 演示 了 如 何在 DATA 步 中 使 用 该 FCMP 版 的 队列 ， 这 样 我 们 就 能 在 DATA. 
步 中 使 用 这 种 数据 结构 实现 所 需 算法 。 


程序 13-2 FcMP 版 队列 的 应 用 示例 

options cmplib- (work.funcs); 

data null ; 
rc-QueueDefine('q', 3); 


do i-1 to 3; 
myvar-i*10; 
rc-QueueEnqueue ('q', myvar); 
put "NOTE: 入 列 " myvar; 
end; 


q len-QueueLength('q'); 
do i-1 to q len; 

rc-QueueDequeue('q', myvar); 

if rc-0 then put "NOTE: 出 列 " myvar ; 
end; 


rc-QueueDelete('q'); 
run; 


系统 输出 如 下 : 


NOTE: 入 列 10 
NOTE: 入 列 20 
NOTE: 入 列 30 
NOTE: 出 列 10 
NOTE: 出 列 20 
NOTE: 出 列 30 


13.1.2” 宏 版 实现 与 示例 


基于 SAS 宏 函 数 和 Hash 对 象 实现 的 队列 〈 见 程序 13-3) 。 前 面 的 FCMP 版 的 队列 
使 用 了 SAS 数据 集 进 行 持久 化 ， 如 果 我 们 要 追求 运行 效率 并 且 希 望 所 有 队列 操作 都 是 在 
内 存 中 进行 ， 则 队列 中 的 数据 就 没有 必要 写 入 磁盘 。 因 此 ， 我 们 可 通过 SAS 的 哈 希 对 
象 和 PDYV 扩展 实现 数据 结构 ， 然 后 用 SAS 宏 封 装 队列 的 基本 操作 。 这 种 实现 也 可 以 在 
DATA 步 内 方便 调用 ， 实 现 复 杂 分 析 算 法 。 完 整 的 代码 如 程序 13-3 所 示 。 

程序 13-3 ”Sas 宏 版 的 队列 实现 ， 存 储 使 用 Hash IR 

/* 队列 - 初始 化 : 参数 为 队列 名 和 容量 ， 默 认 无 容量 限制 ;也 可 指定 元 素 类 型 */ 


$&macro QueueDefine(name = Queuel, maxsize-, dataType = n, 
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dataLength = 8, hashexp = 8, rc 
length gname. key 8; 
call missing(&name. key); 


*$IF &dataType EQ n $THEN $DO; 
length &name. data &datalength; 
retain &name. data 0; 


SEND; 

$ELSE $DO; 
length &name. data $ &datalength; 
retain &name. data ' '; 

SEND; 


SIF &rc- $THEN $DO; 

$let rc-&name. rc; 
SEND; 
declare hash &name. hash (hashexp:&hashexp); 
&rc = &name. hash.defineKey ("&name. key 
&rc - &name. hash.defineData("&name. data 
&rc &name. hash.defineDone () ; 


retain &name. count 0; 


length &name. maxsize 8; 
$IF&maxsize >0 $THENS$DO; 

retain &name. maxsize &maxsize; 
SEND; 


retain &name. last 0; 
retain &name. first 1; 
5mend; 


/* 队列 - AS) + 

$macro QueueEnqueue (name = Queuel, inputData = , queueLength = 
*$1F &inputData- $THEN $1et inputData-&name. data; 
*$1F &queueLength- $THEN $1et queueLength-&name. length; 
$1F &rc- $THEN $1et rc-&name. rc; 


if &name. maxsize»0 and (&name. count-&name. maxsize) then do; 
put "ERROR: Queue &name is full!"; 
end; 

else do; 
&name. counttl ; 
&queueLength - &name. count; 
&name. last*l ; 
&name. key = &name. last; 
&name. data — &inputData; 
&rc = &name. hash.add():; 
if &rc ne 0 then put "ERROR: Internal storage error!" 
&name. last- ; 

end; 

5mend; 


/* 队列 - 出 列 */ 

$macro QueueDequeue( name = Queuel, OutputData = , queueLength = 
%IF &outputData- $THEN $1et outputData-&name. data; 
SIF &queueLength- $THEN $1et queueLength-&name. length; 
$IF &rc- $THEN $1et rc-&name. rc; 


if &name. count «- 0 then do; 
call missing(&outputData); 
Gre = -1 


第 13 章 数据 结构 一 -队列 与 堆栈 CI 


put "ERROR: Queue &name is empty!"; 


end; 

else do; 
&name. key = &name. first; 
&rc &name. hash.find(); 


if &rc ne 0 then put "ERROR: Internal storage error!" 
&name. last- ; 
&OutputData = &name. data; 
&rc = &name. hash.remove(); 
if &rc ne 0 then put "ERROR: Internal storage error!" 
&name. last- ; 
&name. firsttl ; 
&name. countt(-1); 
&queueLength = &name. count; 
end; 
Smend; 


/* 队列 - 长 度 检 测 */ 

$macro QueueLength (name = Queuel, queueLength = ); 
%IF &queueLength- $THEN blet queueLength-&name. length; 
&queueLength = &name. count; 

*mend; 


/* 队列 - 是 否 为 空 */ 

Smacro QueueIsEmpty (name = Queuel, rc =); 
$IF &rc- $THEN $1et rc-&name. rc; 
&rc-(&name. count «- 0); 

Smend; 


/* 队列 - 清空 */ 
$macro QueueDelete (name = Queuel, IC = M 

$IF &rc- $THEN $1et rc-&name. rc; 

&rc = &name. hash.delete(); 

if &rc ne 0 then put "ERROR: Internal storage error!"; 
5mend; 


/* 队列 - 遍历 */ 
Smacro QueueDump (name = Queuel, rc = ); 
%IF &rc- %THEN $1et rc-&name. rc; 
if &name. count <= 0 then do; 
put "NOTE: Queue &name is empty!"; 
end; 
else do; 
do id - &name. first to &name. last ; 
&name. key = id; 
&rc = &name. hash.find(); 
put "NOTE: &name[ " id "]-"&name. data; 
end; 
end; 
*mend; 


程序 13-4 演示 了 如 何在 DATA 步 中 使 用 SAS 宏 版 的 队列 数据 结构 : 


程序 13-4 sas 宏 版 的 队列 演示 程序 
data null ; 
$QueueDefine (name = testQueue, maxsize-5 ); 
do i = 1 to 3; 
myvar-i * 10; 
put "NOTE: 入 列 " myvar; 
$QueueEnqueue (name = testQueue, inputData = myvar); 
end; 
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S$QueueLength (name = testQueue ); 


do i = 1 to testQueue length; 
*$QueueDequeue (name = testQueue, OutputData = myvar); 
put "NOTE: 出 列 " myvar ; 

end; 

$QueueDelete (name = testQueue, rc = testQueue rc ); 

run; 


执行 上 面 的 代码 后 ， 系 统 输出 与 前 面 FCMP 函数 版 的 队列 完全 相同 。 由 于 该 实现 使 
用 了 SAS 内 置 哈 希 对 象 ， 而 且 运行 在 内 存 中 不 涉及 任何 磁盘 操作 ， 性 能 要 好 得 多 。 这 种 
实现 方法 需要 注意 的 是 算法 实现 不 要 跟 SAS 宏 中 的 变量 命名 发 生 冲突 ， 因 为 本 质 上 在 
SAS 的 DATA 步 内 变量 是 没有 作用 域 概 念 。 


13.2 堆栈 


堆栈 (Stack) 在 数据 结构 抽象 概念 上 是 一 种 后 进 先 出 (Last-In-FirstOut) 的 线性 表 ( 见 
13-2) ， 它 最 基本 的 两 个 操作 为 入 栈 (Push) 和 出 栈 (Pop) 。 分 别 将 元 素 压 入 堆栈 ， 
或 者 将 最 后 加 入 的 元 素 弹 出 。 有 时 我 们 需要 Peek 操作 来 访问 最 后 加 入 的 元 素 ， 但 Peek 
操作 并 不 从 堆栈 中 弹出 最 后 加 入 的 元 素 。 除 了 取出 元 素 的 顺序 不 同 ， 堆 栈 与 队列 在 实现 
上 极其 相似 ， 它 们 都 可 以 通过 数组 或 者 链表 来 实现 。 实 际 上 ， 在 SAS 中 实现 堆栈 只 需要 
对 前 面 的 队列 实现 进行 轻微 改动 即 可 。 


zl] 


图 13-2 ”堆栈 示意 图 


函数 版 实现 与 示例 


基于 FCMP 函数 和 SAS 数据 集 实现 的 堆栈 见 程序 13-5 所 示 : 
程序 13-5 ”FCMP 版 的 堆栈 实现 ， 存 储 使 用 持久 化 数据 集 


proc fcmp outlib-work.funcs.Stack; 
/* 堆栈 - 初始 化 ， 参 数 为 名 称 和 容量 */ 
function StackDefine(name $, maxsize); 
array y[1] / nosymbols; 


if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
length-dim(x); 
x[1]-maxsize; 
rc-write array(name, x); 

end; 

else do; 
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if maxsize»0 then y[1]-maxsize; 
else call missing(y[1]); 
rc-write array(name, y); 


end; 

return (rc); 
endsub; 
/* 堆栈 - Ad */ 


function StackPush(name $, value); 
array y[1] / nosymbols; 


if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name, x); 
length-dim(x); 
maxsize-x[1]; 
if maxsize -. | (length-1)« maxsize then do; 
call dynamic array(y, length*1); 
do i-1 to length; 
yli]=x[i]; 
end; 
y[length+1]=value; 
rc=write_array (name, y); 


end; 
else do; 
put "ERROR: Stack is full"; 
rc--1; 
end; 
end; 
else do; 


call missing (y[1]); 
call dynamic_array (y, 2); 


y[2]=value; 
rc=write_array (name, y); 
end; 
return (rc); 
endsub; 
/* 堆栈 - 出 栈 */ 


function StackPop(name $, value); 
outargs value; 
array y[1] / nosymbols; 


if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
length-dim(x); 
if length » 1 then do; 
call dynamic array(y, length-1); 
do i-1 to length-1; 
y[i]=x[i]; 
end; 
value-x[length]; 
end; 
else do; 
y[1]=x[1]; 
put "WARNING: Stack" name "is EMPTY!" 
end; 
rc=write_array (name, y); 
end; 
else do; 
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rc--1; 
end; 
return (rc); 
endsub; 


/* 堆栈 - 检测 长 度 */ 
function StackLength (name $); 
array y[1] / nosymbols; 


if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
length-dim(x); 
rc-length-1; 

end; 

else do; 
rc-0; 

end; 

return (rc); 

endsub; 


/* 堆栈 - 是 否 为 空 */ 

function StackIsEmpty (name $); 
rc-0; 
if StackLength(name)-0 then rc-1; 
return (rc); 

endsub; 


/* 堆栈 - 清空 */ 
function StackDelete (name $); 
array y[1] / nosymbols; 


if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
ylil-x[1]; 
rc-write array(name, y); 

end; 

else do; 
rc-0; 

end; 

return (rc); 

endsub; 


/* 堆栈 - 遍历 */ 
function StackDump (name $); 
if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name, x) ; 
length-dim(x); 
if length » 1 then do; 
do i-1 to length-1; 
value=x [i+1]; 
put "NOTE: " name "[" i "]-" value ; 
end; 
end; 
else do; 
put "WARNING: Stack" name "is EMPTY!"; 
end; 
return(1); 
end; 
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return(0); 
endsub; 
run; 
quit; 


程序 13-6 演示 了 如 何在 DATA 步 中 使 用 FCMP 版 的 堆栈 实现 。 


程序 13-6 ”ECMP 版 堆栈 的 应 用 示例 

options cmplib= (work. funcs) ; 

data null ; 
rc-StackDefine('s', 3); 


do i-1 to 3; 
myvar-i*10; 
rc-StackPush('s', myvar); 
put "NOTE: 入 栈 " myvar; 
end; 


q len-StackLength('s'); 
do i-1 to q len; 

rc-StackPop('s', myvar); 

if rc-0 then put "NOTE. 出 栈 " myvar ; 
end; 


rc-StackDelete('s'); 
run; 


由 于 堆栈 和 队列 非常 相似 , 可 修改 队列 实现 中 的 元 素 取出 方式 来 编写 宏 版 本 的 堆栈 。 
有 兴趣 的 读者 可 自己 完成 。 实 际 上 ， 也 可 将 队列 和 堆栈 的 实现 合 二 为 一 ， 构 建 一 种 称 为 
缓冲 区 Buffer 的 数据 类 型 ， 分 别 实现 FIFO 和 LIFO 数据 访问 方式 。 堆 栈 是 一 种 极其 有 
用 的 数据 结构 ， 利 用 这 种 数据 结构 可 在 DATA 步 内 利用 LINK-RETURN 语句 构建 出 可 递 
归 调 用 的 函数 堆栈 机 制 。 


数据 结构 一 一 链表 


14.1 基础 知识 


链表 (Linked List) 是 一 种 非 顺 序 存 储 的 线性 表 ， 它 的 每 个 节点 之 间 通 过 索引 或 指 
针 指 向 下 一 个 相 邻 节点 。 与 数组 不 同 ， 链 表 通 常 不 需要 预先 知道 数据 的 大 小 ， 而 是 在 需 
要 时 在 链表 的 任何 节点 上 动态 插入 和 删除 。 由 于 每 个 元 素 内 需要 额外 的 索引 或 指针 域 ， 
其 空间 开销 比 数组 大 。 链 表 包 括 单 向 链表 、 双 向 链表 和 循环 链表 等 。 

数组 和 链表 的 应 用 场景 不 同 ， 前 者 注重 数据 存储 密度 且 按 索引 访问 数组 元 素 ， 适 用 
于 构建 没有 插入 和 删除 的 静态 线性 表 。 而 链表 则 适用 于 数据 规模 不 确定 ， 需 要 频繁 
插入 /删除 和 动态 查找 的 场景 。 虽然 链 表 有 额外 的 指针 域 ， 但 它 能 提供 更 加 灵活 和 紧凑 
高 效 的 数据 访问 方式 。 本 章 介绍 如 何在 SAS 的 程序 世界 中 构建 链表 这 一 数据 结构 。 


1. 单 向 链表 


单 向 链表 是 由 一 系列 节点 组 成 的 线性 表 ， 每 个 节点 包含 两 部 分 : 数据 本 身 以 及 指向 
下 一 节点 的 指针 或 引用 。 单 向 链表 的 最 后 一 个 节点 通常 指 向 一 个 空 值 ， 以 此 表示 链表 的 
结束 ， 如 图 14-1 所 示 。 
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图 14-1 单 向 链表 示意 图 
单 向 链表 的 查找 通常 由 第 一 个 节点 (也 称 为 头 节点 ) 开始 往 后 遍历 ， 它 不 支持 从 某 
个 节点 往 后 回溯 。 
2. 双向 链表 


双向 链表 的 每 个 节点 有 两 个 指针 / 引用 域 ， 其 中 一 个 指向 前 一 个 节点 ， 另 一 个 指向 
后 一 个 节点 《〈 见 图 14-2) 。 双 向 链表 可 以 从 任何 一 个 节点 开始 ， 向 前 或 向 后 查找 每 一 个 
节点 。 为 了 表示 链表 的 开始 和 结束 ， 双 向 链表 的 第 一 个 节点 的 头 指 针 和 最 后 一 个 节点 的 
尾 指针 是 一 个 空 值 ， 以 此 表示 链表 结束 。 
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图 14-2 ”双向 链表 示意 图 
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3. 循环 链表 


如 果 将 单 向 链表 的 尾 指针 指向 链表 的 第 一 个 节点 ， 即 可 构成 一 个 单 向 循环 链表 。 此 
时 链表 可 以 按照 某 个 方向 循环 遍历 每 一 个 链表 元 素 〈 见 图 14-3) 。 


QE LB n 
图 14-3 ”循环 链表 示意 图 


如 果 将 双向 链表 的 第 一 个 节点 的 头 指针 指向 最 后 一 个 节点 ， 且 将 最 后 一 个 节点 的 尾 
指针 指向 第 一 个 节点 ， 则 双向 链表 就 变 成 了 一 个 双向 循环 链表 〈 见 图 14-4) 。 
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图 14-4 双向 循环 链表 示意 图 


实际 上 ， 我 们 可 以 为 链表 的 每 个 节点 设计 多 个 指针 ， 表 示 不 同 的 查找 方向 。 也 可 以 
扩展 链表 节点 的 数据 部 分 ， 让 它 不 再 是 单个 变量 ， 而 是 一 个 具有 不 同 长 度 的 顺序 表 〈 数 
组 ) ， 这 样 链 表 就 演变 为 块 状 链表 。 由 于 链表 具有 数组 和 指针 两 大 部 分 ， 实 际 上 它 可 以 
用 来 构建 任何 其 他 的 数据 结构 ， 如 队列 、 堆 栈 以 及 网 状 邻接 表 等 。 这 些 数据 结构 的 实现 
要 用 到 指针 数据 类 型 ， 下 面 我 们 介绍 SAS 中 如 何 嵌 入 C 代码 。 


14.2 如 何在 SAS 代码 中 内 嵌 C 语言 代码 


SAS 语言 的 DATA 步 默 认 并 不 支持 指针 数据 类 型 ， 但 SAS 提供 的 PROC PROTO 
过 程 步 允许 注册 并 调用 C 语言 编写 的 外 部 函数 ， 而 且 函 数 中 可 以 使 用 C 语言 数据 结构 
和 指针 类 型 。 利 用 PROC PROTO 过 程 步 注册 的 C 语言 函数 可 被 PROC FCMP 和 PROC 
COMPILE 过 程 步 中 定义 的 函数 和 例 程 ， 以 及 方法 块 调 用 。PROC PROTO 支持 在 SAS 代 
码 中 直接 嵌入 C 语言 代码 ， 而 不 需要 额外 的 C 语言 编译 器 ，SAS 系统 内 置 支持 C 语言 
代码 的 编译 ， 这 一 点 为 SAS 语言 的 扩展 以 及 SAS 系统 需要 处 理 带 有 指针 类 型 数据 结构 
时 提供 了 无 限 可 能 。 

为 了 区 分 SAS HAREA ARA C 语言 代码 ， 此 后 所 有 C 语言 代码 示例 均 以 斜体 
表示 。 比 如 ， 我 们 用 C 语言 实现 了 一 个 加 法 计算 函数 〈 见 程序 14-1) ， 然 后 我 们 把 它 编 
译 输出 到 WORK.FUNCS._ MATH 包 中 ， 实 际 上 它 跟 FCMP 包 一 样 是 一 个 SAS 数据 集 文 
fF. (EE; Owner 列 的 值 为 PROTO) 。 

程序 14-1 PROTO 实现 加 法 函数 ADD 

proc proto package-work.funcs. math; 

double  add(double, double); 


externc add; 


/* 以 下 为 c 语言 实现 ADD 函数 */ 
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double add(double vl, double v2){ 
double sum; 
sum-vl*v2; 
return sum; 


J 
/* 以 上 为 c 语言 实现 _ADD 函数 */ 
externcend; 
run; 


运行 上 面 的 SAS 代码 即 可 将 代码 编译 到 WORK.FUNCS 中 ， 随 后 就 可 以 在 PROC 
FCMP 中 调用 该 函数 〈 见 程序 14-2) 。 
程序 14-2 FCMP 调用 PROTO 中 的 函数 实现 _ADD 
proc fcmp library-work.funcs; 
b- add(1.5, 2.5); 
put b-; 
quit; 


在 SAS 的 输出 窗口 你 可 以 看 到 输出 结果 为 b=4。 但 这 个 计算 结果 是 使 用 内 髓 的 C 语 
言 程序 计算 出 来 的 ， 并 非 SAS 代码 计算 出 来 的 。 既 然 在 PROC FCMP 可 以 调用 PROC 
PROTO 中 用 C 语言 实现 的 代码 ， 那 么 我 们 是 否 能 够 在 DATA 步 中 调用 PROC PROTO 
中 用 C 语言 编写 的 函数 库 呢 ? 如 第 11 章 “ 扩 展 SAS 功能 ”所 述 ， 我 们 可 使 用 PROC 
FCMP 来 进行 桥接 ， 直 接 调用 则 不 行 〈 见 程序 14-3) o 
程序 14-3 将 PROTO 函数 封装 为 FCMP f DATA 步 调用 
proc femp library-work.funcs outlib-work.funcs.math; 
function add(vl, v2); 
s- _add (vl,v2) ;/* 调 用 PROTO 中 实现 的 _ADD 函数 */ 
return (s) ; 


endsub; 
quit; 


3& fT E H ff] PROC FCMP 代码 即 可 生成 FCMP 函数 ADD (V1，V2)， 就 可 以 在 
DATA 步 中 通过 FCMP 间接 调用 PROTO 中 用 C 语言 实现 的 函数 〈 见 程序 14-4) 。 
程序 14-4 在 DATA 步 内 调用 FCMP 函数 :DRTR->FCMP->PROTO->C 
options cmplib-work.funcs; 
data null ; 
c-add(1.5, 2.5); /* 调 用 FCMP MADD 函数 间接 调用 CHH ADD*/ 
put c=; 
run; 


如 果 PROTO 输出 的 函数 库 PACKAGE= 和 FCMP 输出 的 函数 库 OUTLIB- 指定 的 数 
据 集 名 称 不 一 致 时 , DATA 步 的 调用 代码 将 找 不 到 PROC PROTO 中 定义 的 C 语言 函数 。 
解决 方法 是 将 PROC PROTO 和 PROC FCMP 输出 的 函数 库 设 为 相同 的 SAS 数据 集 ， 如 
都 是 WORK.FUNCS; 还 有 一 种 方法 就 是 在 DATA 步调 用 时 将 PROC PROTO 输出 的 函数 
Æ Cli] WORK.CFUNCS) 追加 到 系统 选项 CMPLIB= 中 , 这 样 代码 库 就 能 自动 找到 〈 如 
下 程序 所 示 ) 。 


options cmplib-(work.funcs work.cfuncs); 
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14.3 单 向 链表 和 双向 链表 


有 了 上 面 在 SAS 中 嵌入 C 语言 代码 的 技术 基础 ， 就 可 以 在 SAS 语言 中 用 C 语言 
的 指针 类 型 来 创建 单 向 链表 数据 结构 。 首 先 要 用 标准 的 C 语言 风格 创建 结构 体 struct 
LinkList〈 如 以 下 程序 所 示 ) : 


struct LinkListí 
double value; /* 数 据 部 分 */ 
struct LinkList * next; /* 结 构 指针 */ 
F; 


然后 基于 该 结构 体 用 C 语言 实现 链表 的 基本 操作 ， 主 要 包括 创建 (CREATE)、 追 加 
(APPEND)、 插 入 (PREPEND)、 尾 部 追加 (ADDNODE)、 删 除 (DELETE) 和 查找 (FIND) 
等 基本 操作 。 整 个 链表 的 完整 定义 如 程序 14-5 所 示 ，PROC PROTO 过 程 步 输出 的 函数 
包 名 WORK.FUNCS.LINKLIST， 表 示 函 数 编译 的 代码 放 在 WORK.FUNCS 数据 集中 ， 
其 中 第 3 级 LINKLIST 只 是 数据 集 下 一 级 的 模块 表示 。 


程序 14-5 单 向 链表 的 完整 实现 
proc proto package-work.funcs.linklist; 
/* 用 c 语言 定义 链表 节点 */ 
struct LinkListí 
double value;/* 数 据 部 分 */ 
struct LinkList * next; /+* 结 构 指针 */ 
H; 


/*R c 语言 创建 链表 ， 返 回 新 建 节点 的 指针 * / 
struct LinkList * create (double); 
externc create; 
struct LinkList * create (double value)í 
struct LinkList * element - (struct LinkList  *) 
malloc( sizeof( struct LinkList)); 
element-»value-value; 
element-»next-0; 
return element; 
} 
externcend; 


/* 后 面 追加 -返回 新 建 节点 指针 */ 
struct LinkList * append(struct LinkList * node, double value): 
externc append; 
struct LinkList * append(struct LinkList * node, double value)í 
struct LinkList * element = (struct LinkList  *) 
malloc( sizeof( struct LinkList)); 
element-»value-value; 
element-»next-0; 
if (node !- 0) 
element-»next-node-»next; 
node-»next- element; 
return element; 
J 
externcend; 


/* 前 面 插入 -返回 新 建 节点 指针 */ 
struct LinkList * prepend(struct LinkList * node, double value); 
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externc prepend; 
struct LinkList * prepend(struct LinkList * node, double value)í 
struct LinkList * element = (struct LinkList #) 
malloc( sizeof( struct LinkList)); 
element-»value-value; 
element-»next-0; 
if (node !- 0) 
element-»next-node; 
return element; 
P. 
externcend; 


/* 尾 部 追加 -返回 新 建 节点 指针 */ 
struct LinkList * addnode (struct LinkList * node, double value); 
externc addnode; 
struct LinkList * addnode (struct LinkList * node, double value){ 
struct LinkList * lastnode = (struct LinkList  *) 
malloc( sizeof( struct LinkList)); 


struct LinkList * element = (struct LinkList  *) 
malloc( sizeof( struct LinkList)); 

element-»value-value; 

element-»next-0; 


while (node !- 0) 

t 
lastnode=node; 
node=node->next; 

$ 

lastnode->next= element; 

return element; 

} 
externcend; 


/* 删 除 节点 -返回 下 一 节点 指针 */ 
struct LinkList * delete(struct LinkList * node, double value); 
externc delete; 
struct LinkList * delete(struct LinkList * node, double value)í 
struct LinkList * lastnode = (struct LinkList +) 
malloc( sizeof( struct LinkList)); 
while (node !- 0) 
t 
if (node->value==value ) 
f 
lastnode->next=node->next; 
node-»next-0;/*WE*/ 
return lastnode-»next; 
i 
lastnode=node; 
node-node-»next; 
} 
return 0; 
$ 
externcend; 


/* 查 找 节 点 -返回 匹配 节点 指针 */ 
struct LinkList * find(struct LinkList * node, double value); 
externc find; 
struct LinkList * find(struct LinkList * node, double value){ 
while (node !- 0) 
[4 
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if (node-»value--value ) 
return node; 
node-node-»next; 
$ 
return 0; 
} 
externcend; 
run; 


在 SAS 代码 中 如 何 使 用 该 链表 结构 呢 ? 程序 14-6 创建 了 一 个 值 为 12 的 头 节点 并 添 
加 了 值 为 99 和 37 的 节点 。 然 后 我 们 遍历 链表 ， 并 在 头 节点 处 插入 值 为 88 的 节点 ， 随 
后 进行 查找 和 删除 等 操作 。 在 PROC FCMP 中 可 使 用 C 语言 定义 的 结构 体 ， 但 DATA 步 
中 却 不 能 支持 PROC PROTO 中 定义 的 C 语言 结构 体 ， 即 使 如 此 ， 依 然 可 用 FCMP 桥接 
两 者 。 


程序 14-6 单 向 链表 的 应 用 示例 ( FCMP ) 

proc fcmp library-work.funcs; 
struct LinkList node; 
node-create (12) ; 


struct LinkList header; 
header-node; /* 保 存 第 一 个 节点 */ 


node-append (node, 99); 
node-append (node,37); 


put "人 遍历"; 

node=header; 

put node.value ; 

do while(^isnull(node.next)); 
node-node.next; 
put node.value; 

end; 


pute " tš 
put "插入 88"; 
header-prepend (header,88); 


node-header; 
put node.value ; 
do while(^isnull(node.next)); 
node-node.next; 
put node.value; 
end; 
pub fa 
put "查找 99 "; 
node-find (header, 99) ; 
if ^missing(node.value) then do; 
put node.value; 
end; 
else do; 
put "N/A"; 
end; 
pub" 13 
put "查找 39 "; 
node-find (header, 39) ; 
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if ^missing(node.value) then do; 
put node.value; 


end; 
else do; 
put "N/A"; 
end; 
pae * o'g 
put "删除 12"; 


node-delete (header,12); 


node-header; 

put node.value ; 

do while (^isnull(node.next)); 
node-node.next; 
put node.value; 

end; 

run; 
quit; 


在 SAS 输出 窗口 中 可 以 看 到 系统 输出 如 图 14-5 所 示 。 
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图 14-5 ”FCMP 链表 测试 程序 输出 


同 理 ， 我 们 可 以 实现 双向 链表 DualLinkList 如 程序 14-7 所 示 。 双 向 链表 的 基本 操作 
与 单 向 链表 基本 相同 ， 但 追加 、 插 入 、 删 除 和 查找 会 涉及 头 尾 指针 的 修改 问题 。 双 向 链 
表 的 删除 和 查找 可 以 按照 向 前 或 者 向 后 两 种 方向 进行 。 


程序 14-7 ”双向 链表 的 完整 实现 
Proc proto package=work.funcs.duallinklist; 
struct DualLinkList{ 
double value; RERBA 
struct DualLinkList * next; /*iAj48iEfi*/ 
struct DualLinkList * prev; /*fASÍl*/ 
F; 


/* 创 建 节点 */ 
struct DualLinkList * create (double); 
externc create; 
struct DualLinkList + create(double value)í 
struct DualLinkList * element = (struct DualLinkList  *) 
malloc( sizeof( struct DualLinkList)); 
element-»value-value; 
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element-»next-0; 
element-»prev-0; /*Bj— d figx*/ 
return element; 
了 
externcend; 


/* 链 表 当 前 位 置 插 入 ， 其 后 一 个 节点 成 为 插入 节点 的 下 一 个 节点 */ 
struct DualLinkList * append(struct DualLinkList * node, double 
value); 
externc append; 
struct DualLinkList * append(struct DualLinkList * node, 
double value){ 
struct DualLinkList * element = (struct DualLinkList  *) 
malloc( sizeof( struct DualLinkList)); 
element-»value-value; 
element-»prev-node; 
if (node !- 0) 


f 
element-»next-node-»next; 
if (node-»next !-0 ) (node-»next)-»prev-element; 
node-»next-element; 

" 

return element; 

t 
externcend; 


/* 前 面 插入 -返回 新 建 节点 */ 
struct DualLinkList * prepend(struct DualLinkList * node, double 
value); 
externc prepend; 
struct DualLinkList * prepend(struct DualLinkList * node, double 
value)í 
struct DualLinkList * element = (struct DualLinkList  *) 
malloc( sizeof( struct DualLinkList)); 
element-»value-value; 
element-»next-node; 
if (node !-0) 
t 
element->prev=node->prev; 
if (node->prev !=0) (node->prev)->next=element; 


node-»prev-element; 
: 
return element; 
ti 
externcend; 


/* 链 表 的 尾部 追加 / 头 部 插入 */ 
struct DualLinkList * addnode(struct DualLinkList * node, double value, 
int direction); 
externc addnode; 
struct DualLinkList * addnode(struct DualLinkList * node, 
double value, int direction)í 


struct DualLinkList * element = (struct DualLinkList wg 
malloc( sizeof( struct DualLinkList)); 
struct DualLinkList * lastnode = (struct DualLinkList +) 


malloc( sizeof( struct DualLinkList)); 


element-»value-value; 
element-»next-0; 
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while (node != 0) 

t 
lastnode-node; 
if (direction--0) node-node-»next; 
else node-node-»prev; 


if (direction-- 0) ( 
lastnode-»next- element; 
element-»prev-lastnode; 
) 
else ( 
lastnode-»prev- element; 
element-»next-lastnode; 
) 
return element; 
了 
externcend; 


/* 删 除 节点 -返回 下 一 节点 */ 
struct DualLinkList * delete (struct DualLinkList * node, double 
value, int direction); 
externc delete; 
struct DualLinkList * delete(struct DualLinkList * node, 
double value, int direction)í 
struct DualLinkList * lastnode = (struct DualLinkList  *) 
malloc( sizeof( struct DualLinkList)); 
while (node !- 0) 
t 
if (node-»value--value ) 
t 
lastnode->next=node->next; 
if (node->next !=0) (node->next)->prev=lastnode; 
node->next=0; 
node->prev=0; 
return lastnode->next; 
} 
lastnode=node; 
if (direction--0) node-node-»next; 
else node-node-»prev; 
" 
return 0; 
Ji 
externcend; 


/* 链 表 查 找 */ 
struct DualLinkList * find(struct DualLinkList * node, double 
value, int direction); 
externc find; 
struct DualLinkList * find(struct DualLinkList * node, double 
value, int direction){ 
while (node !- 0) 
f 
if (node-»value--value ) 
return node; 
if (direction--0) node-node-»next; 
else node-node-»prev; 
} 
return 0; 
了 
externcend; 
run; 
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程序 14-8 演 示 了 双向 链表 基本 应 用 ,读者 可 以 将 它 进一步 封装 在 DATA 步 内 进行 调用 。 


程序 14-8 ”双向 链表 的 应 用 示例 ( FCMP ) 

proc fcmp libname-work.funcs; 
struct DualLinkList node; 
node-create (12); 


struct DualLinkList header; 
header-node; /* 保 存 第 一 个 节点 */ 


node=append (node, 99); 
node=append (node, 37) ; 


struct DualLinkList tail; 
tail=node; /* 保 存 最 后 一 个 节点 */ 


put " 正 向 遍历 "; 

node=header; 

put node.value ; 

do while(^isnull(node.next)); 
node-node.next; 
put node.value ; 

end; 


put "后 向 遍历 "; 

node-tail; 

put node.value ; 

do while (^isnull(node.prev)):; 
node-node.prev; 
put node.value ; 

end; 


pup" *: 
put "插入 88"; 
header-prepend (header, 88); 


node=header; 

put node.value ; 

do while(^isnull(node.next)); 

node-node.next; 
put node.value ; 

end; 

pug " ti 

put "查找 99 "; 

node-find (header,99, 0); 

if ^missing(node.value) then do; 
put node.value ; 

end; 

else do; 
put "N/A"; 

end; 

put? ta 

put "查找 39 "; 

node-find (header,39, 0); 

if ^missing(node.value) then do; 
put node.value ; 

end; 

else do; 
put "N/A"; 

end; 
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pub " C 
put "删除 12"; 
node-delete (header, 12,0); 


node-header; 
put node.value ; 
do while (^isnull(node.next)); 
node-node.next; 
put node.value; 
end; 
run; 
quit; 


系统 输出 如 图 14-6 所 示 。 
| 
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图 14-6 FCMP 双向 链表 测试 程序 输出 


14.4 链表 应 用 : 约瑟夫 斯 问题 


为 了 演示 链表 的 应 用 ， 我 们 用 SAS 求解 约瑟夫 斯 问题 。 据 说 公元 1 世纪 有 个 犹太 人 
叫 提 图 斯 。 弗 拉 维 奥 。 约 瑟 夫 斯 (Tifus Flavins Josephus)， 他 和 40 个 战友 在 罗马 人 占领 
塞 约 塔 巴 后 躲 到 了 一 个 山洞 里 。 于 是 这 群 人 在 被 长 期 围困 时 讨论 了 接 下 来 可 能 的 出 路 : 
自杀 还 是 投降 ? 最 后 集体 的 决定 就 是 自杀 。 然 而 约瑟夫 斯 和 另外 一 个 同伴 却 并 不 赞成 自 
杀 计 划 ， 于 是 狐 独 的 他 建议 采用 如 下 方式 逐个 自杀 : 41 个 人 站 成 一 个 圆圈 ， 由 第 1 个 人 
开始 报 数 ， 每 数 到 3 的 人 执行 自杀 计划 ， 活 着 的 人 监督 执行 情况 ， 自 杀 后 由 下 一 个 人 重 
新 从 1 开始 报 数 ， 依 次 自杀 直到 所 有 的 人 都 自杀 完毕 为 止 。 于 是 大 家 开始 排队 ， 而 约 瑟 
夫 斯 和 另 一 个 同伴 心领神会 地 站 到 了 某 两 个 特别 的 位 置 上 ， 一 起 神奇 地 逃 过 了 这 场 死亡 
游戏 ， 最 后 活着 向 罗马 人 投降 了 ! 

这 个 问题 有 个 现代 版 的 游戏 就 是 N 个 玩家 围 成 一 圈 , 游戏 规定 从 第 1 个 玩家 开始 报 
数 ， 凡 是 报 数 为 M 的 玩家 将 被 淘汰 出 局 ， 下 一 个 玩家 继续 从 1 开始 报 数 ， 报 数 为 M 的 
玩家 依次 出 列 直到 剩 下 最 后 一 个 人 为 止 即 胜出 。 这 个 游戏 归结 为 一 般 性 数学 问题 就 是 : 
给 定 的 Y 和 M， 求 解 出 局 顺序 或 最 终 胜 出 玩家 的 位 置 编号 AX 约瑟夫 斯 问题 就 是 该 游戏 
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在 N-41 和 M=3 时 求解 最 后 两 位 玩家 的 位 置 问题 。 
这 个 问题 可 用 单 向 循环 链表 求解 ， 首 先 需 实现 循环 链表 CircularLinkList 数据 结构 。 
完整 的 代码 如 下 所 示 〔〈 见 程序 14-9) : 


程序 14-9 ” 单 向 循环 链表 的 完整 实现 
Proc proto package=work.funcs.circularLinkList; 
struct CircularLinkList{ 
double value; /+ 烧 据 部 分 +/ 
struct CircularLinkList * next; /*ÍAfHEfl*/ 
i 


/* 创 建 节点 */ 
struct CircularLinkList * create (double); 
externc create; 
struct CircularLinkList * create (double value){ 
int i; 
struct CircularLinkList * element - (struct CircularLinkList  *) 
malloc( sizeof( struct CircularLinkList)); 
element-»value-value; 
element-»next-element; 
return element; 
J 
externcend; 


/* 追 加 节点 : 创建 节点 并 追加 到 当前 节点 后 面 */ 
struct CircularLinkList * append(struct CircularLinkList * node, 
double value); 
externc append; 
struct CircularLinkList * append(struct CircularLinkList * node, 
double value)( 
struct CircularLinkList * element = (struct CircularLinkList *) 
malloc( sizeof( struct CircularLinkList)); 
element-»value-value; 
element-»next-element; 
if (node !- 0) 
f 
element-»next-node-»next; 
node-»next-element; 
à 
return element; 
] 
externcend; 


/* 插 入 节点 : 创建 节点 并 插入 到 当前 节点 前 面 */ 
struct CircularLinkList * prepend(struct CircularLinkList * node, 
double value); 
externc prepend; 
struct CircularLinkList * prepend(struct CircularLinkList * node, 
double value)(í 


struct CircularLinkList * element = (struct CircularLinkList *) 
malloc( sizeof( struct CircularLinkList)); 
struct CircularLinkList * lastnode = node; 


element-»value-value; 
element-»next -node; 


while (node != 0 ) 
{ 
lastnode-node; 
node-node-»next; 
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if (node == lastnode) break; 
} 


if (lastnode !=0) lastnode->next= element; 


return element; 
2 


externcend; 
/* 删 除 节点 ， 找到 匹配 值 的 节点 并 删除 之 */ 


struct CircularLinkList * delete(struct CircularLinkList * node, 


double value); 
externc delete; 
struct CircularLinkList * delete(struct CircularLinkList 
double value)( 
struct CircularLinkList * element; 
struct CircularLinkList * orignode = node; 
struct CircularLinkList * lastnode = 0; 


struct CircularLinkList * tempnode node; 
while (node !- 0) 
{ 
if (node-»value--value ) 
f 
if (lastnode==0) { 
tempnode=node; 
while(tempnode != 0) 
f 
lastnode-tempnode; 
tempnode-tempnode-»next; 
if (tempnode -- orignode) break; 
J 
Jj 
lastnode-»next-node-»next; 
node-»next-node; 
return lastnode-»next; 
+ 
lastnode=node; 
node=node->next; 
if (node orignode) break; 
} 
return 0; 
$ 
externcend; 


/* 查 找 节 点 : 找到 匹配 值 的 节点 */ 


* node, 


struct CircularLinkList * find(struct CircularLinkList * node, 


double value); 
externc find; 


struct CircularLinkList * find(struct CircularLinkList * node, 


double value)í 
struct CircularLinkList * element; 
struct CircularLinkList * orignode = node; 


while (node !- 0) 
t 
if (node->value==value ) 
return node; 
node=node->next; 
if (node == orignode) break; 
} 


return 0; 
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externcend; 
/* 判 断 两 个 节点 是 否 为 同一 节点 */ 
int equal(struct CircularLinkList * node, struct CircularLinkList * 
node2 ); 
externc equal; 
int equal(struct CircularLinkList * node, struct CircularLinkList 
+ node2){ 
return node--node2; 
$ 
externcend; 
/* 删 除 节点 ， 删除 当前 节点 并 返回 下 一 个 节点 */ 
struct CircularLinkList * deleteNode(struct CircularLinkList * node ); 
externc deleteNode; 
struct CircularLinkList * deleteNode(struct CircularLinkList * node)( 
struct CircularLinkList * element; 
struct CircularLinkList * orignode 
struct CircularLinkList * lastnode 


- node; 
- 0; 
while (node !- 0) 
f 
lastnode-node; 
node-node-»next; 
if (node -- orignode) break; 
} 
lastnode->next=node->next; 
node->next=node; 
return lastnode->next; 
} 
externcend; 
run; 
quit; 


为 了 能 在 DATA 步 中 使 用 单 向 循环 链表 ， 我 们 还 需要 建立 一 个 FCMP 函数 Josephus 


来 桥接 PROTO 代码 进行 求解 〈 见 程序 14-10) ， 其 中 n 和 m 为 输入 参数 ， 分 别 表示 玩 
家 数 N 和 玩家 出 局 报 数 M， 而 数组 r 为 用 来 存放 出 局 顺序 的 输出 参数 。 注 意 ， 由 于 
DATA 步 不 支持 结构 体 ， 而 FCMP 支持 结构 体 ， 因 此 我 们 通常 需要 将 结构 体 的 概念 封装 
在 FCMP 函数 内 ， 而 DATA 步 一 般 用 线性 数组 传递 数据 给 FCMP 进行 调用 。 


程序 14-10 ”FCMP 封装 单 向 循环 链表 结构 体 桥接 DATA 步 和 PROTO 函数 
proc fomp libname-work.funcs outlib-work.funcs.josephus; 
function Josephus(n, m , r[*]):; 
outargs r; 
struct CircularLinkList node; 
struct CircularLinkList header; 


node-create (1) ; /* 创 建 N 个 元 素 的 单 向 循环 链表 * / 
header-node; 
to n; 
node-append(node, i); 
end; 


do i- 


node-header; 

i-1; 

c-1; 

do while (^isnull (node.next)); 
node-node.next; 
i-itl; 
if i-m then do; 
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r[c]-node.value; /* 保 存 出 局 玩家 编号 */ 
c-ctl; 
node-deleteNode (node) ; /* 玩 家 出 局 */ 
i-1; 
end; 
if equal(node, node.next) then do; 
r[c]-node.value; 
return (1); /* 游 戏 结束 */ 
end; 
end; 
return(1); 
endsub; 
run; 
quit; 


最 后 ， 在 DATA 步 中 调用 FCMP 函数 Josephus 来 实现 求解 ( 见 程序 14-11)， 只 需要 
传 入 参数 n 和 m， 以 及 用 于 接收 计算 结果 的 一 维 数组 seq 即 可 。 


程序 14-11 单 向 循环 链表 求解 约瑟夫 斯 问题 的 SAS 演示 程序 
options cmplib- (work.funcs); 
data null ; 
array seq [41]; 
n-41; m-3; 
r-Josephus(n, m, seq); 
put "Josephus (" n- m- ")"; 
put seq[*]; 
run; 


运行 上 面 的 代码 后 系统 输出 如 下 : 

Josephus (n-41 m=3 ) 

3 6 9 12 15 18 21 24 27 30 33 36 39 1 5 10 14 19 23 28 32 37 41 7 13 20 26 34 

40 8 17 29 38 11 25 2 22 4 35 16 31 

该 输出 序列 表示 41 个 士兵 编号 的 自杀 顺序 ， 因 此 如 果 Jossephus 和 另 一 个 同伴 想 
要 活命 的 话 ， 在 排队 的 时 候 就 应 该 尽 可 能 抢占 死亡 轮 盘 上 的 最 后 两 个 位 置 : 第 16 个 和 
第 31 个 位 置 〈 见 图 14-7) 。 如 果 有 3 个 人 想 要 从 该 游戏 中 存活 下 来 ， 则 应 该 分 别 占据 
35、16 和 31 这 三 个 位 置 。 


图 14-7 ”约瑟夫 斯 死亡 轮 盘 
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ZXP} (Binary Tree, BTree) 是 每 个 节点 最 多 有 两 个 子 节点 构成 的 树 状 数据 结构 ， 
左右 子 节点 及 其 子 集 构 成 的 集合 通常 被 称 为 左 子 树 和 右 子 树 〈 见 图 15-1) 。 

假定 二 叉 树 的 层次 为 k 则 二 叉 树 最 多 可 有 n-2-1 个 节点 。 比 如 大 4， 则 最 多 可 有 
n-2'-1-15 个 节点 。 同 理 ，n 个 节点 可 构成 深度 为 k-log2 (7-1) 的 完全 二 又 树 。 


(2) o9 
ooo © 
(8) (09) 
图 15-1 二叉树 范例 


如 果 以 顺序 序列 方式 存储 由 n 个 节点 构成 的 二 叉 树 ， 则 对 于 编号 为 i 的 节点 ， 其 父 
节点 的 编号 为 i/2 p. P, WR i< n/2 ， 则 其 左 侧 子 节点 编号 为 2?， 否 则 该 节点 没 
有 左 侧 子 节点 ; 如 果 i< (mn-1)/2 ,其 右 侧 子 节点 编号 为 2i+1, 否则 该 节点 没有 右 侧 子 节点 。 
比如 图 15-1 中 »-10, d^ i-4 «10/2, ， 则 其 左 侧 子 节点 编号 为 2i-8, HLi-4 < (10-1)/2 
则 其 右 侧 子 节点 编号 为 2i+1=9。 

树 状 数据 结构 蕴含 了 彼此 之 间 的 聚合 关系 ， 它 最 重要 的 操作 是 遍历 每 个 节点 。 遍 历 
二 叉 树 的 顺序 包括 深度 优先 和 广度 优先 两 大 类 ， 其 中 深度 优先 包括 前 序 遍历 、 中 序 遍 历 
和 后 序 遍 历 3 种 方式 ， 其 遍历 方法 可 递归 定义 如 下 。 

e 深度 优先 

CD 前 序 遍 历 : 访问 根 节点 ，【 前 序 遍 历 】 左 子 树 ，【 前 序 遍历 】 右 子 树 。 

(2) 中 序 遍 历 : 【中 序 遍 历 】 左 子 树 ， 访 问 根 节点 ，【 中 序 遍 历 】 右 子 树 。 

G) 后 序 遍 历 : 【后 序 遍 历 】 左 子 树 ，【 后 序 遍 历 】 右 子 树 ， 访 问 根 节点 。 

e 广度 优先 

按照 层次 逐 级 访问 整 棵 树 : 先 访问 根 节 点 ， 然 后 是 左 侧 子 节点 ， 最 后 是 右 侧 子 节点 。 


15.1 PROTO 实现 与 封装 


在 SAS 中 实现 二 又 树 有 多 种 方式 ， 有 了 前 面 PROC PROTO 创建 指针 链表 的 经 验 ， 
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在 SAS 中 实现 二 又 树 就 非常 容易 。 首 先是 要 建立 二 又 树 节点 的 结构 体 BTree， 其 定义 如 
程序 15-1 所 示 。 


程序 15-1 BTree 结构 体 
struct BTree( 
double valuez/+ 数 据 郭 分 +/ 
struct BTree * leftChild; /+ 菏 向 左 芳 点 的 符 寻 +/ 
struct BTree * rightChild; /+ 北向 在 芳 点 的 北 寻 +/ 
中 


然后 就 需要 创建 二 叉 树 节点 的 函数 create〈 见 程序 15-2) ， 假 设 节 点 中 数据 部 分 为 
一 个 双 精 度 浮 点 数 double 值 ， 则 需要 把 它 作为 参数 传递 给 节点 创建 函数 。 


程序 15-2 ”创建 一 个 BTree 节 点 
struct BTree * create (double value){ 
int i; 
struct BTree * node-0; 
node = (struct BTree *) malloc( sizeof( struct BTree)); 
node-»value-value; 
node-»leftChild-0; 
node-»rightChild-0; 
return node; 


j 


为 了 将 子 节点 和 父 节 点 链接 起 来 , 需要 将 节点 关联 起 来 形成 “ 树 ” 的 函数 setChild ( 见 
程序 15-3) ， 其 参数 为 父 节 点 和 子 节点 的 指针 ， 以 及 指示 将 子 节点 当 作 左 节点 还 是 右 节 
点 的 标志 量 ,right=1 表示 当 作 右 节点 ， 否 则 默认 为 左 节 点 。 


程序 15-3 设置 BTree 节 点 关系 的 函数 setChilad 
struct BTree + setChild(struct BTree * parent, struct BTree * child, int right){ 
if ( parent!-0)( 
if (right!-1) parent-»leftChild-child; 
else parent-»rightChild-child; 
} 
return parent; 


i 


由 于 SAS 语言 中 最 方便 和 常见 的 数据 存储 是 线性 数组 ,因此 我 们 设计 build 函数 ( 见 
程序 15-4) 实现 从 线性 数组 value[] 中 构建 一 个 完全 二 又 树 的 方法 。 


程序 15-4 ”从 线性 数组 构建 完全 二 又 树 
struct BTree + build(struct BTree * p, double + value, int length, int pos ){ 
struct BTree * node; 
p-»value- value[pos] > 
if ( ( value[ pos *2 41 ] )--0 || (pos *2 *1)»(length-1) ) 
p-»leftChild-0; 
else 
f 
node- (struct BTree +*+) malloc( sizeof( struct BTree)); 
p-2leftChild- node; 
build( p-» leftChild, value, length, pos *2 41); 
g 


if ( ( value[ pos *2 42 ])--0 || (pos *2 42) » length-1) 
p-»rightChild-0; 
else 
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f 
node-(struct BTree *) malloc( sizeof( struct BTree)); 
p-»rightChild- node;; 
build( p-> rightChild, value, length, pos *2 +2); 

了 


return p; 


J 

至 此 ， 建 立 二 叉 树 数据 结构 的 函数 就 基本 准备 完毕 。 后 面 可 根据 二 又 树 遍历 方法 的 
定义 实现 各 种 二 叉 树 遍历 函数 。 注 意 函 数 实 现 中 根据 定义 采用 了 递归 调用 。 

1. 前 序 遍 历 算法 实现 ( 见 程序 15-5 ) 


程序 15-5 二叉树 的 前 序 遍历 算法 实现 
struct BTree + iterativePreOrder(struct BTree * root, double * value, int * Pos) 1 
value[*pos] - root-»value; 
*pos-*postl; 
if (root-»leftChild  !-0) 
iterativePreOrder( root-»leftChild, value, pos); 
if (root-»rightChild !-0) 
iterativePreOrder( root-»rightChild, value, pos); 
return root; 


J 


2. 中 序 遍 历 算 法 实现 ( 见 程序 15-6 ) 


程序 15-6 ， 二叉树 的 中 序 遍历 算法 实现 


struct BTree + iterativeInOrder (struct BTree * root, double * value, int * pos)í 
if (root-»leftChild  !-0) 
iterativeInOrder( root-»leftChild, value, pos); 


value[*pos] = root-»value; 
*pos- *pos *1; 


if (root-»rightChild !-0) 
iterativeInOrder( root-»rightChild, value, pos); 
return root; 


2 
3. 后 序 遍历 算法 实现 ( 见 程序 15-7 ) 


程序 15-7 ”二叉树 的 后 序 遍历 算法 实现 
struct BTree + iterativePostOrder(struct BTree * root, double * value, int* pos){ 
if (root-»leftChild  !-0) 
iterativePostOrder( root-»leftChild, value, pos); 
if (root-»rightChild !-0) 
iterativePostOrder( root-^»rightChild, value, pos); 


value[*pos] = root-»value; 
*pos-*pos*l; 
return root; 
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4. 广度 优先 遍历 算法 实现 ( 见 程序 15-8 ) 


程序 15-8 ”二叉树 的 广度 优先 遍历 算法 实现 

struct BTree * iterativeLayerOrder (struct BTree * root, double * value, int * pos){ 
int head-0, tail-0; 
struct BTree * node; 
struct BTree * p[100]; 


if (root --0) return root; 
p[head]-root; 
tailtf*; 


while(head« tail) 
f 
node-p[head]; 
if(node-»leftChild !- 0) 
{ 
p[tail] = node->leftChild; 
tailtt; 
$ 
if(node->rightChild != 0) 
t 
p[tail] = node-»rightChild; 
tailtt; 
: 


value[*pos] = p[head]-»value; 
*pos-*postl; 


headt*tt; 
H; 
return root; 


} 


为 了 让 上 面 C 语言 实现 的 二 又 树 代码 能 够 在 SAS 中 运行 ， 要 用 PROC PROTO 过 程 
步 将 所 有 这 些 C 函数 进行 封装 。 也 就 是 说 需要 把 上 面 的 代码 放 到 如 下 对 应 注释 之 后 〈 见 
程序 15-9) ， 然 后 在 SAS 中 运行 即 可 。SAS 自 带 C 语言 编译 器 处 理 嵌 入 的 C 语言 代码 。 
这 跟 一 些 C++ 编译 器 能 够 处 理 C 代码 ， 以 及 C 编译 器 能 够 处 理 内 嵌 的 宏 汇编 代码 机 制 
是 一 样 的 。 另 外 程序 15-9 还 定义 了 一 个 判断 树 是 否 为 空 的 函数 isTreeNull。 


程序 15-9 二叉树 完整 实现 代码 
proc proto package-work.funcs.btree; 


+AA C 代 三 放 在 此 处 +/ 


struct BTree * create (double); 
externc create; 
/* BIHR ERES c 代 码 放 在 此 处 +/ 


externcend; 


struct BTree * setChild(struct BTree *, struct BTree *, int right); 
externc setChild; 
/RE-T RES C 代 码 放 在 此 处 +/ 


externcend; 


struct BTree * build(struct BTree *, double *, int, int ); 
externc build; 


/*MEENE TEE EIRE — X NES C BAE 
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externcend; 


struct BTree * iterativePreOrder(struct BTree *, double *, int *); 
externc iterativePreOrder; 
ÉRA C 代码 放 在 此 处 +/ 


externcend; 


struct BTree * iterativeInOrder(struct BTree *, double *, int *); 
externc iterativeInOrder; 
PRAA C 代码 放 在 此 处 +/ 


externcend; 


struct BTree * iterativePostOrder(struct BTree *, double *, int *); 
externc iterativePostOrder; 
/* RR C REMEHA 


externcend; 


struct BTree * iterativeLayerOrder(struct BTree *, double *, int *); 
externc iterativeLayerOrder; 
/* 层 次 遍历 C REMEHA 


externcend; 


int isTreeNull (struct BTree * tree); 
externc isTreeNull; 
int isTreeNull(struct BTree * tree){ 
return tree--0; 
} 
externcend; 
run; 


至 此 ， 就 可 以 在 PROC FCMP 中 测试 所 创建 的 二 叉 树 结构 以 及 各 种 遍历 算法 。 如 程 
序 15-10 所 示 以 图 15-1 中 的 二 叉 树 为 例 进行 说 明 。 
程序 15-10 二叉树 功能 的 简单 测试 程序 


proc fomp libname-work.funcs; 
array a[10] (12 345 67 8 9 10); 


struct BTree root; 
root-build(root, a, dim(a), 0); 


array b[10]; 
put "前 序 遍 历 "; 


p=0; 

root-iterativePreOrder(root, b, p); 
put b- ; 

put "中 序 遍 历 "; 

p-0; 

root-iterativeInOrder(root, b, p); 
put b-; 


put "ARPAD"; 

p-0; 

root-iterativePostOrder(root, b, p); 
put b-; 


put "广度 遍历 "; 

p-0; 

root-iterativeLayerOrder(root, b, p); 
put b-; 
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run; 

quit; 

运行 上 面 的 SAS 代码 后 ， 系 统 在 SAS 输出 窗口 程序 输出 如 下 结果 : 
前 序 遍历 : 1 2 48 9 510367 

中 序 遍历 : 8 4 92 1051 637 

后 序 遍 历 : 894105 26 731 

广度 遍历 : 1 2 3 4 5 67 8910 


由 于 SAS 语言 的 DATA 步 不 支持 结构 和 指针 处 理 ， 因 此 只 能 在 PROC FCMP 中 可 
使 用 结构 体 数 据 。 如 果 我 们 需要 在 DATA 步 中 使 用 二 叉 树 遍历 ， 则 只 能 通过 线性 数组 传 
入 传 出 FCMP 子 系统 进行 处 理 。 为 此 设计 FCMP 函数 iterativeBTree 来 封装 整个 过 程 ， 
它 能 够 对 给 定 SAS 数组 建立 完全 二 叉 树 ， 然 后 按照 指定 的 4 种 二 又 树 遍 历 顺 序 输出 结果 
到 另 一 个 SAS 数组 中 。 其 完整 的 代码 如 程序 15-11 所 示 。 


程序 15-11 BTree 实现 的 FCMP 封装 
proc fcmp inlib-work.funcs outlib-work.funcs.struct; 
function iterativeBTree(a [*] , b[*], mode); 
outargs b; 


struct BTree root; 


root-build(root, a, dim(a), 0); /* 从 输入 数组 中 创建 二 叉 树 */ 


p=0; 
if mode-1 then 
root-iterativePreOrder(root, b, p); 
else if mode-2 then 
root-iterativeInOrder(root, b, p); 
else if mode-3 then 
root-iterativePostOrder(root, b, p); 
else 
root-iterativeLayerOrder(root, b, p); 
return (1); 
endsub; 
run; 
quit; 


上 面 的 FCMP 函数 编译 通过 后 ， 就 可 以 使 用 程序 15-12 所 示 的 DATA 步 进行 测试 。 
程序 15-12 BTree 的 简单 DATA 步 测试 程序 


options cmplib-work.funcs; 

data null ; 
array a[10] temporary (12345678 9 10); 
array b[10] temporary ; 


do mode-1 to 4;/* 四 种 模式 进行 遍历 */ 
rc=iterativeBTree (a,b,mode); 
do i-1 to dim(b); 
put b[i] 80; 
end; 
put "«-" mode ; 
end; 
run; 
quit; 


运行 上 面 的 代码 后 ，SAS 在 日 志 窗 口中 将 输出 如 下 结果 : 
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15.2 FCMP 二 又 树 实现 


不 用 PROC PROTO Aik C 代码 也 可 基于 线性 数组 创建 二 叉 树 ， 程 序 15-13 是 利用 
FCMP 函数 和 SAS 数据 集 模拟 实现 的 二 叉 树 机 制 。 不 过 由 于 此 时 用 到 了 涉及 VO 的 外 部 
临时 数据 集 ， 本 方法 仅 适用 于 性 能 要 求 不 那么 高 的 场合 。 


程序 15-13 BTree 的 FCMP 版 实现 
proc fcmp outlib=work.funcs.btree2; 
/* 定 义 二 叉 树 */ 
function BTreeDefine (name $, maxsize); 
array Y[1] / nosymbols; 


if exist(name) then do; 

array x[1] / nosymbols; 

rc-read array (name,x); 

length-dim(x); 

x[1]-maxsize; 

rc-write array(name, x); 

put "WARNING: Change BTree" name "(maxsize-" maxsize ")"; 
end; 
else do; 

if maxsize»0 then y[1]-maxsize; 

else call missing(y[1]):; 

rc-write array(name, y); 

put "NOTE: Create BTree" name "(maxsize-" maxsize ")"; 


end; 

return (rc); 
endsub; 
/* 从 数组 中 创建 二 叉 树 */ 


function BTreeBuild(name $, value[*]); 
array y[1] / nosymbols; 


inputLength-dim(value); 
minlen-inputLength; 
maxsize-.; 
if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
length-dim(x); 
maxsize-x[1]; 
if maxsize >0 then minlen-min(maxsize, inputLength); 
end; 


call dynamic array(y, minlen+1); 

yli]-maxsize; 

do i-1 to minlen; 
ylitl]-value[i]; 

end; 

rc-write array(name, y); 
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put "NOTE:Build" value ">> BTree" name; 
return (rc); 
endsub; 


/* 返 回 根 节点 ID, KTA 1 */ 

function BTreeGetRootId (name $); 
return (1); 

endsub; 


/* 返 回 id 节点 的 子 节点 : right-0 左 节点 right-l 右 节点 */ 
function BTreeGetChildId(name $, id, right); 
if (right ^-1) then newid- 2 * (id-1) +1; 
else newid- 2 * (id-1) *2; 
if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
length-dim(x); 
maxsize-x[1]; 
if (newid*l« length) then return (newid*l); 
end; 
return (.); 
endsub; 
/* 返 回 id 节点 的 值 */ 
function BTreeGetNodeValue (name $, id); 
if exist (name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
length-dim(x); 
maxsize-x[1]; 
if 1<= id & id«- length then return( x[id*l] ); 
end; 
return (.); 
endsub; 


/* 前 序 遍历 */ 
function iterativePreOrder (name $, id, value[*], pos); 
outargs value; 
outargs pos; 
if exist (name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
length-dim(x); 
maxsize-x[1]; 


if 0< id & id«- length then do; 
value[pos]-x[id*l]; 
pos-pos*l; 

end; 


leftChildId-BTreeGetChildId(name, id, 0); 
if leftChildID ^=. then rc-iterativePreOrder(name , leftChildId, 
value, pos); 


rightChildId-BTreeGetChildId(name, id, 1); 
if rightChildID ^=. then rc-iterativePreOrder (name , 
rightChildId, value, pos); 
end; 
return (.); 
endsub; 
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/* 中 序 遍 历 */ 
function iterativeInOrder (name $, id, value[*], pos); 
outargs value; 
outargs pos; 
if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name, x); 
length-dim(x); 
maxsize-x[1]; 


leftChildId-BTreeGetChildId(name, id, 0); 
if leftChildID ^-. then rc-iterativeInOrder(name , leftChildId, 
value, pos); 


if 0< id & id«- length then do; 
value[pos]-x[id*1]; 
pos=pos+1; 

end; 


rightChildId=BTreeGetChildId (name, id, 1); 
if rightChildID ^=. then rc=iterativeInOrder (name , 
rightChildId, value, pos); 
end; 
return (.); 
endsub; 


/* 后 序 遍历 */ 
function iterativePostOrder(name $, id, value[*], pos); 
outargs value; 
outargs pos; 
if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
length-dim(x); 
maxsize-x[1]; 


leftChildId-BTreeGetChildId(name, id, 0); 
if leftChildID ^=. then rc-iterativePostOrder (name , 
leftChildId, value, pos); 


rightChildId-BTreeGetChildId(name, id, 1); 
if rightChildID ^-. then rc-iterativePostOrder(name , 
rightChildId, value, pos); 


if 0< id & id«- length then do; 
value[pos]-x[id*1]; 
pos-pos*1; 
end; 
end; 
return (.); 
endsub; 


/* 广 度 优先 遍历 */ 

function iterativeLayerOrder(name $, id, value[*], pos); 
outargs value; outargs pos; 
head-1; tail-1; 


array BTree[1] / nosymbols; 
call dynamic array(BTree, dim(value)); 


if id=; then return (-1); 
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BTree [head]=id; 
tail=tail+1; 


do while (head < tail); 
node-BTree [head]; 


leftChildId-BTreeGetChildId(name, node, 0); 
if leftChildID ^-. then do; 
BTree[tail]-leftChildId; 
tail-tail*1; 
end; 


rightChildId-BTreeGetChildId (name, node, 1); 
if rightChildID ^-. then do; 
BTree[tail]-rightChildId; 
tail-tail*1; 
end; 


value[pos]- BTreeGetNodeValue (name, node); 
pos-pos*t1; 
head-head*1; 
end; 
return (.); 
endsub; 


/* 返 回 二 叉 树 的 大 小 */ 
function BTreeSize(name $); 
array y[1] / nosymbols; 


if exist(name) then do; 
array x[1] / nosymbols; 
rc-read array (name,x); 
length-dim(x); 
rc-length-1; 
end; 
else do; 
rc-0; 
end; 
return (rc); 
endsub; 
run; 
quit; 


程序 15-14 对 FCMP 版 的 BTree 实现 进行 测试 ， 测 试 结果 与 PROTO 实现 输出 
相同 。 


程序 15-14 FCMP 版 BTree 的 简单 测试 程序 
option cmplib=(work.funcs); 
data null ; 

rc-BTreeDefine('t', 10); 


array a[10] (1234 5 6 7 8 9 10); 
rc-BTreeBuild('t',a ); 


array b[10]; 
rc-iterativePreOrder('t',1l, b, 1 ); 
put "NOTE: 前 序 遍历 " b[*1-; 


rc-iterativeInOrder('t' 


put "NOTE: 中 序 遍 历 " b[*1-; 
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rc-iterativePostOrder('t',l, b, 1 ); 


put "NOTE: 后 序 遍 历 " b[*1-; 
rc-iterativeLayerOrder('t',l, b, 1 ); 
put "NOTE: 广度 优先 " b[*]-; 

run; 

系统 输出 如 下 : 


WARNING: Change BTree t (maxsize= 10 ) 

NOTE: Build 12345678910 >> BTree t 

NOTE: 前 序 遍历 bl-1 b2-2 b3-4 b4-8 b5-9 b6-5 b7-10 b8-3 b9-6 b10-7 
NOTE: 中 序 遍 历 b1-8 b2-4 b3-9 b4-2 b5-10 b6-5 b7-1 b8-6 b9-3 b10-7 
NOTE: 后 序 遍历 bl=8 b2-9 b3-4 b4-10 b5-5 b6-2 b7-6 b8-7 b9-3 bl0-1 
NOTE: 广度 优先 bl-1 b2-2 b3-3 b4-4 b5-5 b6-6 b7-7 b8-8 b9-9 b10-10 


15.3 二 叉 树 应 用 : 算术 表达 式 求 值 


二 叉 树 在 数据 查找 中 具有 广泛 应 用 ， 它 查找 一 个 数据 的 时 间 复 杂 度 为 log(n)， 而 普 
通 的 数组 或 线性 列表 则 为 wm， 因此 二 叉 树 在 很 多 数据 查找 领域 都 有 应 用 。 二 又 树 在 复杂 
问题 分 解 方面 非常 有 用 ， 在 计算 机 语言 本 身 的 编译 处 理 中 就 会 用 到 这 一 数据 结构 ， 如 用 
于 算术 表达 式 求 值 中 构建 抽象 语法 树 (AST) 。 

下 面 以 设计 一 个 简单 的 表达 式 求 解 器 为 例 ， 看 如 何 利用 二 又 树 对 一 个 给 定 算术 表达 
式 进行 求 值 。 为 演示 目的 ， 我 们 假定 该 求解 器 只 支持 十 、 一 、X、 羡 和 ^ 乘 方 S 种 运算 ， 
数值 也 仅 支持 个 位 数 0-9， 如 表达 式 : 1+2X3-8/4+5^2 o 

要 实现 这 样 一 个 表达 式 求解 器 ， 首 先 要 将 复杂 表达 式 分 解 到 最 细 粒 度 。 抽 象 看 来 ， 
最 简单 的 求 值 不 外 乎 是 操作 数 〈 通 常 是 两 个 ) 和 操作 符 〈 运 算 ) HAA, MARE = H 
ER 7 操作 符 IEA 2?。 比 如 ， 上 面 的 表达 式 中 ， 其 正确 的 计算 序列 应 该 为 2X3 = 6, 
8/4-2,5^2 —25; 最 终 表 达 式 为 1+6-2+25=30。 

同时 ， 我 们 知道 运算 符 本 身 还 具有 优先 级 的 问题 : 先 乘 除 ， 后 加 减 ， 而 乘 方 运算 
则 更 加 优先 。 如 果 是 同样 的 优先 级 ， 则 可 以 自 左 向 右 方向 进行 结合 求 值 。 因 此 ， 表 达 
式 求 值 就 是 按照 优先 级 从 高 往 低 的 方向 ， 对 二 元 表达 式 进行 求 值 ， 然 后 将 计算 结果 代入 
次 一 级 的 二 元 运算 直到 整个 表达 式 被 计算 完毕 。 则 上 面 的 表达 式 1+2X3-8/4+5^2 可 
以 分 解 为 

e 5^2-25 

e 2x3-6 8/42 

e 146-7 7-2-5 5425-30 

如 果 我 们 能 够 用 构造 如 图 15-2 所 示 的 二 叉 树 表示 ， 则 表达 式 的 求 值 可 以 采用 由 底 至 
顶 不 断 求解 ， 直 到 最 终 得 到 根 节点 的 值 为 止 。 
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if (root-»leftChild !=0) 
vl-evaluatePostOrder( root-»leftChild); 

if (root-»rightChild!-0) 
v2-evaluatePostOrder( root-»rightChild); 


if return vl*v2; /+ 加 法 运 第 +/ 
if return vl-v2; /x+ 减法 运 莫 +/ 
if return vl*v2; /x+ 乘法 运 划 +/ 
Era return vl/v2; /*[fikikB/ 


if (c--94 ) return pow((double)vl, (double)v2); /*3XEJ/jikB/ 
return(c-48); /*3X 0-9， 十 六 进 制 48-57*/ 
externcend; 
run; 


基于 上 面 的 PROTO 二 又 树 结构 和 后 序 遍 历 求 值 函数 ， 就 可 用 FCMP 函数 来 实现 表 
达 式 求解 函数 evaluate ， 该 函数 唯一 参数 为 字符 串 表达 式 。 主 要 算法 就 是 根据 基本 准则 
动态 构建 语法 树 ， 然 后 使 用 后 序 遍 历 顺序 进行 求 值 ， 其 中 还 用 到 一 个 对 运算 符 的 优先 级 
进行 判断 的 辅助 函数 getlevel 。 实 际 上 ， 由 于 FCMP 中 不 支持 将 结构 体 struct 作为 函数 
参数 ， 因 此 后 序 遍 历 求 值 必须 实现 在 PROTO 过 程 步 中 ， 而 非 FCMP 过 程 步 中 。 完 整 实 
现代 码 如 程序 15-16 所 示 。 


程序 15-16 FCMP 实现 表达 式 求解 函数 evaluate () 和 优先 级 辅助 函数 getlevel 
proc fcmp library-work.funcs outlib-work.funcs.exp; 
/* 返回 运算 符 c 的 优先 级 :1-3， 越 大 表示 优先 */ 
function getlevel (c $); 
if c in ("t*" "-") then do; 
return (1); 
end; 
else if c in ("/" "*") then do; 
return (2); 
end; 
else if c in ("^") then do; 
return (3); 
end; 
return(0); 
endsub; 


/* 表达 式 求解 入 口 : 比如 rc=evaluate ("142*3-8/445^2") ; */ 
function evaluate (exp $); 

struct BTree root; 

struct BTree lastnode; 


bstart=0; 
pos=1; 
do while (pos<= length (exp)); 
c-substr(exp, pos, 1); 
if c ^=" " then do; 
struct BTree node; 
node-create (rank (c) ); 


if bstart=0 then do; 
root-node; 
bstart-1; 
end; 
else do; 
if left(trim(c)) in ("4" "-" wm n/n nan) then do; 
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if trim(left( byte( root.value))) 
qui (pm nos vew yw "é"y ERGE HUC 
/* 构 造 二 叉 树 准则 */ 
if getlevel( c ) > getlevel( byte(root.value) ) then do; 
struct BTree orignode; 
orignode-root.rightChild; 
root.rightChild-node; 
node.leftChild-orignode; 
end; 
else do; 
node.leftChild-root; 
root-node; 
end; 
end; 
else do; 
node.leftChild-lastnode; 
root-node; 
end; 
end; 
else do; 
lastnode.rightChild-node; 
end; 
end; 
lastnode- node ; 
end; 
pos-pos*t1l; 
end; 
/* 后 序 遍 历 顺 序 求 值 */ 
result-evaluatePostOrder (root); 
return(result); 
endsub; 
run; 
quit; 


至 此 ， 我 们 就 可 以 在 FCMP 或 DATA 步 中 对 函数 evaluate 进行 调用 。 用 户 只 需要 将 
需要 计算 的 算术 表达 式 传递 给 它 即 可 。 由 于 本 例子 只 是 为 了 说 明 二 又 树 的 应 用 ， 仅 定义 
了 有 限 的 数据 和 操作 符 。 在 PROC FCMP 中 调用 示例 见 程序 15-17， 而 在 DATA 步 中 调 
用 示例 如 程序 15-18 所 示 。 


程序 15-17 FCMP 中 使 用 表达 式 解 析 器 
proc fcmp library-work.funcs ; 
exp-"1t2*3-8/445^2"; 
result-evaluate (exp); 
put "表达 式 : " exp "-" result; 
run; 
quit; 


程序 15-18 DATA 步 中 使 用 表达 式 解析 器 
options cmplib-work.funcs; 
data null ; 
exp-"1*2*3-8/445^2"; 
result-evaluate (exp); 
put "表达 式 : " exp "-" result; 
run; 


这 两 个 程序 运算 后 都 能 输出 正确 的 答案 ， 感 兴趣 的 读者 可 以 在 此 基础 上 构建 更 加 强 
大 的 表达 式 求解 器 。 
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和 矩阵 是 一 个 由 若干 行列 元 素 组 成 的 矩形 阵列 , 当 行 数 与 列 数 相等 时 称 为 方块 矩阵 ， 
简称 方 阵 。 只 有 一 行 或 一 列 的 矩阵 称 为 行 矩 阵 或 列 和 矩阵 ， 它 等 价 于 向 量 。 和 矩阵 作为 线 
性 代数 和 数值 分 析 的 基础 数学 工具 ， 在 统计 分 析 、 物 理学 计算 、 计 算 机 图 形 学 等 领域 
具有 非常 广泛 的 应 用 ， 最 常见 的 应 用 为 线性 / 非 线性 方程 组 求解 、 几 何 空间 的 线性 变 
换 等 。 

概率 论 中 也 常用 矩阵 表示 概率 转移 矩阵 和 发 射 矩 阵 ， 用 于 定义 有 限 概率 空间 中 的 
马尔 可 夫 链 ; 描述 性 统计 中 则 常用 协 方差 矩阵 表示 若干 随机 变量 之 间 的 协 方差 关系 ， 
而 在 线性 回归 分 析 的 最 小 二 乘法 中 用 于 表述 样本 之 间 的 线性 关系 。 和 矩阵 运算 可 以 说 是 
数据 分 析 的 基础 ， 理 解 并 掌握 它 是 迈 向 数据 分 析 核 心 的 重要 一 步 。 和 矩阵 的 基本 运算 主 
要 包括 如 下 内 容 。 

(1) 加 减 运算 : 相同 大 小 的 两 个 矩阵 相应 位 置 的 元 素 进行 加 减 , 称 为 矩阵 的 和 或 差 ， 
记 为 4 土 B， 它 满足 交换 律 (4+B)-C=A+( B-C). 

(2) ARH: 一 个 标量 大乘 以 矩阵 4 每 个 元 素 ， 形 成 一 个 新 的 矩阵 ， 称 为 矩阵 
的 积 ， 记 为 k4， 它 满足 交换 律 和 分 配 律 。 

G) 矩阵 乘法 : 当 第 1 个 矩阵 的 列 数 跟 第 2 个 矩阵 的 行 数 相等 时 ， 和 矩阵 之 间 可 以 
相 乘 。 比 如 ，m 行 n gjy ARA n íT p 列 矩 阵 B， 得 到 的 乘积 矩阵 4B 为 m 行 p 列 
的 矩阵 。 其 中 矩阵 AB 的 第 i 行 j 列 元 素 等 于 矩阵 4 的 第 i 行 元 素 与 矩阵 BB 第 j 列 对 应 
元 素 的 乘积 之 和 : 


[AB],, A, B, +A, B, 7*4, B, = LB, 


和 矩阵 乘法 不 满足 交换 律 ， 即 4B 关 B4。 和 矩阵 乘法 规则 看 起 来 比较 奇怪 ， 但 它 却 是 
表述 线性 方程 式 变量 之 间 关系 的 绝妙 发 明 ， 在 矩阵 有 关 的 运算 中 非常 常见 


bs [e SHE z 
(4) 矩阵 转 置 : 将 矩阵 的 行列 进行 互 换 ， 原 来 i 行 j 列 的 元 素 变 为 了 41 i 列 元 素 ， 
行列 数 相应 变化 ， 是 初等 变换 中 的 位 置 变 换 。 
G) WERE: OST n 阶 方 阵 4， 如 果 存 在 4C=C4=E， 其 中 互 为 n 阶 单位 矩阵 ( 仅 
对 角 线 为 1， 其 余 为 0 的 矩阵 ) ， 则 称 方 阵 C 是 方 阵 4 的 逆 矩 阵 ， 记 为 CA AE 
阵 只 有 唯一 的 逆 和 矩阵 ， 可 道 矩 阵 有 满 秩 且 满 足 行列 式 det 4#0 的 性 质 。 
C6) 矩阵 还 有 其 他 初等 变换 ， 如 倍 乘 变 换 和 倍加 变换 。 比 如 ， 和 矩阵 某 一 行 ( 或 列 》 
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乘 以 非 零 左 的 倍 乘 变 换 ， 以 及 某 一 行 〈 或 列 ) 乘 以 非 零 大 并 累加 到 另 一 行 〈 或 列 ) 上 的 
倍加 变换 。 
计算 机 语言 中 通常 用 二 维 数组 表示 和 拖 阵 元 素 ， 也 有 的 计算 机 语言 会 提供 向 量 或 者 矩 

阵 对 象 来 封装 矩阵 运算 。SAS 语言 作为 面向 数据 分 析 的 语言 ， 在 不 同 层面 上 实现 了 对 矩 
阵 运算 的 支持 ， 主 要 包括 以 下 几 种 方法 。 

(1) DATA 步 中 可 利用 二 维 数组 直接 进行 矩阵 运算 ， 所 有 算 阵 运算 规则 需要 用 户 自 
己 实现 ， 较 麻烦 。 

(2) 在 FCMP 过 程 步 中 利用 FCMP 系统 例 程 进行 。 由 于 DATA 步 可 以 调用 用 户 自 
定义 FCMP 函数 ， 因 此 DATA 步 中 可 重用 经 过 用 户 再 封装 的 FCMP 系统 例 程 和 函数 。 

(3) 在 DS2 过 程 步 中 使 用 系统 包 MATRIX 进行 矩阵 运算 。 

(4) 购买 SAS/IML 专业 矩阵 运算 包 的 软件 许可 ，IML 全 称 是 Interactive Matrix 
Language, 它 包含 上 百 个 专门 分 析 和 算法 实现 , 涵盖 和 矩阵、 时 间 序 列 、 数 值 分 析 、 优 化 算法 、 
数值 模拟 和 数据 可 视 化 等 各 领域 。 


16.1 FCMP 矩阵 运算 


PROC FCMP 过 程 步 提供 FCMP 子 系统 的 数组 跟 SAS 数据 集 之 间 转 换 函 数 READ_ 
ARRAY 和 WRITE ARRAY， 它 们 使 FMCP 数组 数据 能 够 方便 地 输出 到 SAS 数据 集 ， 
供 其 他 SAS 程序 、 宏 或 过 程 步 作 进一步 处 理 ， 而 它们 处 理 的 结果 数据 集 也 可 以 反 过 来 
构造 FCMP 数组 在 FCMP 函数 内 作 进 一 步 处 理 。 值 得 一 提 的 是 FCMP 子 系统 还 支持 用 
RUN MACRO 函数 来 执行 一 个 预定 义 宏 以 及 用 RUN_SASFILE 函数 来 执行 一 个 外 部 
SAS 文件 。 

由 于 FCMP 内 置 系统 函数 能 将 一 维 数组 / 二 维 数组 当 作 和 矩阵 进行 常见 的 矩阵 运算 ， 
而 DATA 步 中 又 可 以 很 方便 地 重用 这 些 函 数 ， 因 此 FCMP 和 矩阵 运算 为 日 常数 据 分 析 中 的 
矩阵 运算 提供 了 简便 方法 。 但 FCMP 矩阵 运算 中 除 ZeroMatrix、FillMatrix 和 Identity 例 
程 外 通常 不 支持 缺失 值 处 理 ， 功 能 相对 有 限 。FCMP 矩阵 运算 的 主要 功能 为 : 

1. 矩阵 操作 一 一 赋值 

COD 将 矩阵 所 有 元 素 清 零 。 

call zeromatrix(X); 

参数 : 

e 义 输 入 /输出 参数 ， 为 任意 m 行 n 列 的 矩阵 。 
(2) 将 矩阵 所 有 元 素 设置 为 特定 值 。 


call fillmatrix(X, s); 


参数 : 
e 义 输 入 /输出 参数 ， 为 任意 m 行 n 列 的 纶 阵 。 
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e s 输入 参数 ， 给 定 标量 。 


2. 和 矩 阵 操 作 一 一 加 减法 、 元 素 乘法 、 和 矩阵 乘法 


(D 


(2) 


(3) 


(4) 


和 矩阵 加 法 : 如 果 和 矩阵 大 小 相等 ， 对 应 元 素 相 加 如 果 义 或 Y 为 标量 ， 则 矩阵 
中 的 每 个 元 素 都 加 上 标量 。 


call addmatrix(X, Y, Z); 


参数 : 

e 和 或 了 输入 参数 ， 为 m 行 虽 列 的 矩阵 或 者 一 个 标量 s。 

e ZZ 输出 参数 ,为 m 行 n 列 的 和 矩阵。Z 二 X+Y,，Z [m,n]==X [m, n] +Y [m,n]。 
矩阵 减法 : 如果 和 矩阵 大 小 相等 ， 对 应 元 素 相 减 ， 如 果 义 或 Y 为 标量 ， 则 和 矩阵 
中 的 每 个 元 素 都 减 去 标量 。 


call subtractmatrix(X, Y, Z); 


参数 : 

e 义 输 入 参数 ，m 行 n 列 的 矩阵 或 标量 ，X[m,n]。 

@ 了 输入 参数 ，m 行 n 列 的 和 矩阵 或 标量 ，Y[mn]。 

e Z 输 出 参数 ，m 行 n 列 的 矩阵 ，Z[mm] ，Z-X-Y。 

元 素 乘法 一 一 如 果 和 矩阵 大 小 相等 ， 对 应 元 素 相 乘 。 如 果 义 或 其 中 一 个 为 标 
量 ， 则 矩阵 中 的 每 个 元 素 乘 以 标量 ， 返 回 一 个 矩阵 。 如 果 X 和 都 是 标量 ， 
则 返回 一 个 标量 。 但 需要 注意 FCMP 抑 阵 元 素 乘 法 不 支持 行 矩 阵 、 列 矩阵 相 乘 ， 
而 在 DS2 中 则 可 以 。 

call elemmult (X, Y, Z); 

参数 : 

e 义 输入 参数 ，m 行 n 列 的 矩阵 。 

o 了 输入 参数 ，m 行 n 列 的 矩阵 。 

e ZEH, mfrnf] 8948 RE. 

矩阵 乘法 : 计算 两 个 输入 矩阵 的 乘积 ， 它 要 求 第 一 个 矩阵 的 列 数 n 等 于 第 二 
个 矩阵 的 行 数 n ， 输 出 矩阵 的 行 数 为 第 1 个 矩阵 的 行 数 m， 列 数 为 第 2 个 矩阵 
的 列 数 p。 

call mult(X, Y, Zj 

参数 : 

e 义 输 入 参数 ，m 行 n 列 的 矩阵 ，X[m.n]。 

e Y ANA, n4 p3, Y[n p]. 

e Z 输 入 参数 ，m 行 p 列 的 矩阵 ，Z[m,p]， 其 中 Z[m.p]-X[mn] x Y[np]« 


3. 矩阵 操作 一 一 转 置 


矩阵 转 置 : 将 矩阵 对 应 的 行 变 成 对 应 的 列 。 


call transpose(X, Y); 
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参数 : 
€ 义 输 入 参数 ，m 行 n 列 的 矩阵 ，X[m,n]。 
e 了 输出 参数 ，n 行 m 列 的 矩阵 ，Y[mnl]， 即 了 Y=X?” , 


4. 方 阵 操作 一 一 指数 矩阵 和 乘 景 
CD 将 给 定 方块 矩阵 和 乘 以 标量 + 并 变换 为 以 e 为 底 的 指数 矩阵 ef。SAS 采用 


(2 


Golub 和 van Loan(1989) 中 提 到 的 Padé 近似 算法 , 该 算法 不 会 对 每 个 元 素 取 宕 。 


call expmatrix(X, t, Y); 


参数 : 

e X 输 入 参数 ，m 行 m 列 的 方块 矩阵 。 

@t 输 入 参数 ， 浮 点 标量 。 

晶 立 输出 矩阵 ，m 行 m 列 的 方块 矩阵 ， 其 中 元 素 关 系 为 了 = es。 

将 方块 矩阵 变换 到 指定 整数 寡 。 

call power(X, a, Y); 

参数 ; 

e X 给 入 参数 ，m 行 m 列 的 方块 矩阵 ，X[mm] 。 

@ a 输入 参数 ， 整 数 标量 ， 即 整数 知 。 如 果 输 入 参数 a 小 于 0， 则 取 0; 如 果 不 
是 整数 ，SAS 默 认 自 动 取 整 。 

@ 立 输出 参数 ，m 行 m 列 的 方块 答 阵 ，Y[mm] ，Y= X。 


5. 方 阵 操作 一 一 求 行列 式 、 逆 矩阵 、 单 位 矩阵 、 楚 列 斯 基 分 解 
COD 求 方 阵 行列 式 。 如 果 对 应 的 行列 式 det4=0 说 明 该 矩阵 是 奇异 和 矩阵、 不可逆 ， 


否则 为 非 奇 异 和 矩阵 、 可 北上 且 满 秩 。 

call det(X, a); 

23 

e X 输 入 参数 ，m 行 m 列 的 方块 矩阵 。 

9 a 输 出 参数 ， 返 回答 阵 的 a-[X]. 

需要 特别 注意 : 

巴特 征 值 的 乘积 是 一 个 标量 ， 如 果 拢 阵 行列 式 为 0， 则 该 矩阵 是 奇异 矩阵 ， 没 
有 道 矩阵 。 该 方法 执行 LU 分 解 并 收集 对 角 线 的 乘积 。 

加 当 方块 矩阵 每 个 特征 值 都 大 于 等 于 0， 则 该 矩阵 为 半 正 定 ; 当 所 有 特征 值 
都 大 于 0 时 ， 则 该 矩阵 为 正定 。 

图 当 且 仅 当 其 行列 式 不 为 零 ， 则 方块 矩阵 是 非 奇 异 的。 方块 矩阵 奇异 当 且 仅 
当 其 代表 的 线性 变换 是 自 同 构 的 。 

@ 如 果 A 是 奇异 矩阵 ， 则 4 必 不 可 道 ， 此 时 AX-O AEN, Ab 有 无 穷 解 
或 者 无 解 。 如 果 4 是 非 奇 异 和 矩阵 , 则 4 必 可 道 , 此 时 4X=0 有 且 只 有 唯一 零 解 ， 
AX-b 有 唯一 解 。 
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(2) 方块 矩阵 的 道 矩 阵 ， 输 入 拢 阵 必 须 是 非 奇异 矩阵 。 
call inv(X, Y): 
参数 : 
e 义 输 入 参数 ，m 行 m 列 的 方块 矩阵 。 
e Y 输出 参数 ，m 行 m 列 的 方块 和 矩阵， 其 中 Y[m,m]=X [m, m]， 其 中 满足 
XY=YX=I， 其 中 I 为 单位 矩阵 。 
(3) 将 指定 方 阵 变换 为 对 应 的 单位 矩阵 。 即 主 对 角 线 上 值 为 1， 其余 值 为 0 hm 
阶 单位 矩阵 。 单 位 矩阵 的 特征 值 为 1， 其 主 对 角 线 上 的 特征 值 之 积 〈 即 行列 式 ) 
等 于 1， 其 主 对 角 线 上 的 特征 值 之 和 《〈 即 迹 ) SR m. 
call identity(X); 
23 
e 和 输入 输出 参数 ，m 行 m 列 的 方块 矩阵 。 
计算 方块 矩阵 的 楚 列 斯 基 〈Cholesky) 分 解 。 要 求 方 阵 是 为 对 称 且 正定 ， 其 中 
对 称 是 指 上 下 三 角 对 称 。 如 果 X 不 是 对 称 正 定 , 则 结果 矩阵 立会 用 缺失 值 填充 。 
call chol(X, Y, v); 
参数 : 
€ X 输 入 参数 ， 要 求 是 对 称 、 正 定 的 方块 矩阵 X [m, m] 
e Y 输 出 参数 ， 指 定 m 行 m 列 的 方块 和 矩阵， 用 于 输出 Cholesky 分 解 项 。Y[m， 
Im] 为 具有 严格 正 对 角 条 目的 下 三 角 和 矩阵， 立 * 表 示 方 阵 Y 的 共 恩 转 置 。 
9 v 输入 参数 ， 可 选 。0 表 示 检 查 和 矩阵 是 否 对 称 (默认 ) ; 1 则 假定 矩阵 对 
ik, AFER 


(4 


~ 


程序 16-1 演 示 了 以 上 FCMP 和 矩阵 运算 的 完整 功能 , 读者 可 检查 结果 来 了 解 各 方法 功能 。 


程序 16-1 FECMP 和 矩阵 处 理 功能 示例 
proc femp ; 
array ma 2 3[2,3] ( 
1, 2, 3, 
4, 5, 6); 
array ma 3 2[3,2] ( 


5, 6); 
array ma 3 3[3,3] ( 0.30, -0.78, -0.82, 


array mb 2 3[2,3] ( 
1; 8L 9; 
10, 11, 12); 


array mc 3 3[3,3] ( 
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array mo 2 3[2,3]; 
array mo 2 2[2,2]; 
array mo 3 3[3,3]; 


put "JERAS"; 
call zeromatrix(ma 3 2); 
do i-1 to dim(ma 3 2); 
put ma 3 2[i, 1] best.2 ma 3 2[i, 2] best.2; 
end; 


put "ERME"; 
call fillmatrix(ma 3 2, 99); 
do i-1 to dim(ma 2 3); 
put ma 3 2[i, 1] best.2 ma 3 2[i, 2] best.2; 
end; 


put "矩阵 A"; 
do i-1 to dim(ma 2 3); 
put ma 2 3[i, 1] best.2 ma 2 3[i, 2] best.2 ma 2 3[i, 3] best.2; 
end; 
put "JBfEB"; 
do i-1 to dim(mb 2 3); 
put mb 2 3[i, 1] best.2 mb 2 3[i, 2] best.2 mb 2 3[i, 3] best.2; 
end; 


put "矩阵 加 法 : 矩阵 + 矩阵 ( 等 大 小 ) "; 
call addmatrix(ma 2 3, mb 2 3, mo 2 3); 
do i-1 to dim(mo 2 3); 

put mo 2 3[i, 1] best.2 mo 2 3[i, 2] best.2 mo 2 3[i, 3] best.2; 
end; 
put "JERIA: ABPbebeÉU: 
call addmatrix(ma 2 3, 10, mo 2 3); 
do i-1 to dim(mo 2 3); 

put mo 2 3[i, 1] best.2 mo 2 3[i, 2] best.2 mo 2 3[i, 3] best.2; 
end; 


put "和 矩阵 减法 : ERE- ( 等 大 小 ) "; 
call subtractmatrix(ma 2 3, mb 2 3, mo 2 3); 
do i-1 to dim(mo 2 3); 

put mo 2 3[i, 1] best.2 mo 2 3[i, 2] best.2 mo 2 3[i, 3] best.2; 
end; 
put "矩阵 减法 : 矩阵 -标量 "; 
call subtractmatrix(ma 2 3, 10, mo 2 3); 
do i-1 to dim(mo 2 3); 

put mo 2 3[i, 1] best.2 mo 2 3[i, 2] best.2 mo 2 3[i, 3] best.2; 
end; 


put "IERTA: MEREXI ( 等 大 小 ) "; 
call elemmult(ma 2 3, mb 2 3, mo 2 3); 
do i-1 to dim(mo 2 3); 

put mo 2 3[i, 1] best.2 mo 2 3[i, 2] best.2 mo 2 3[i, 3] best.2; 
end; 
put "和 矩阵 元 素 乘法 : AeRpX RH: 
call elemmult(ma 2 3, 10, mo 2 3); 
do i-1 to dim(mo 2 3); 

put mo 2 3[i, 1] best.2 mo 2 3[i, 2] best.2 mo 2 3[i, 3] best.2; 
end; 


put "ERRA: "; 
call mult(ma 2 3, ma 3 2, mo 2 2); 
do i-1 to dim(mo 2 2); 
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put mo 2 2[i, 1] best.2 mo 2 2[i, 2] best.2; 
end; 


put "矩阵 转 置 "; 
array mo 3 2 [3,2]; 
call transpose(ma 2 3, mo 3 2); 
do i-i to dim(mo 3 2); 
put mo 3 2[i, 1] best.2 mo 3 2[i, 2] best.2; 
end; 


put "方形 矩阵 变换 v-e^tx"; 
call expmatrix(ma 3 3, 3, mo 3 3); 
do i-1 to dim(mo 3 3); 
put mo 3 3[i, 1] best.2 mo 3 3[i, 2] best.2 mo 3 3[i, 3] best.2; 
end; 


put "方形 和 矩阵 变换 v-X^a"; 
call power(ma 3 3, 3, mo 3 3); 
do i-1 to dim(mo 3 3); 
put mo 3 3[i, 1] best.2 mo 3 3[i, 2] best.2 mo 3 3[i, 3] best.2; 
end; 


put "方形 矩阵 求 行列 式 DET"; 
call det (ma 3 3, ret); 
put ret-; 


put "方形 矩阵 变换 道 和 矩阵 "; 
call inv(ma 3 3, mo 3 3); 
do i-1 to dim(mo 3 3); 
put mo 3 3[i, 1] best.2 mo 3 3[i, 2] best.2 mo 3 3[i, 3] best.2; 
end; 


call inv(mo 3 3, mo 3 3); /* 二 次 逆 即 得 原 和 矩阵 */ 


put "方形 矩阵 单位 矩阵 "; 
call identity(mo 3 3); 
do i-1 to dim(mo 3 3); 
put mo 3 3[i, 1] best.2 mo 3 3[i, 2] best.2 mo 3 3[i, 3] best.2; 
end; 


put "方形 矩阵 Cholesky ( 要 求 矩 阵 是 对 称 ， 正 定 ) "; 
call chol(mc 3 3, mo 3 3, 0); 
do i-1 to dim(mo 3 3); 
put mo 3 3[i, 1] best.2 mo 3 3[i, 2] best.2 mo 3 3[i, 3] best.2; 
end; 
run; 
quit; 


系统 输出 如 图 16-1 所 示 。 
既然 FCMP 子 系统 中 已 经 有 这 些 和 矩阵 函数 ,我 们 是 否 在 DATA 步 中 可 以 直接 调用 呢 ? 
很 遗憾 ， 如 果 直 接 调 用 SAS 系统 会 报告 如 下 错误 : 


ERROR 251-185: 子 程序 MULT 未 知 ， 或 无 法 访问 。 请 查看 您 的 拼写 。 它 在 可 执行 图 像 的 路 径 中 找 不 
到 ， 或 存在 不 正确 或 缺失 的 子 程序 描述 符 信息 。 
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为 了 在 DATA 步 中 重用 这 些 矩 阵 函 数 ， 而 不 是 自己 重新 发 明 轮 子 ， 我 们 需要 利用 自 
定义 FCMP 函数 来 桥接 DATA 步 和 FCMP 系统 例 程 的 程序 空间 。 比 如 矩阵 乘法 可 封装 
为 FCMP 函数 m mult 〈 见 程序 16-2) o 


程序 16-2 ”使 用 FCMP 自 定义 函数 将 矩阵 处 理 封装 给 DATA 步 使 用 
proc fcmp outlib-work.funcs.math; 
subroutine m mult(a[*,*], b[*,*], c[*,*]); 
outargs c; 
call mult(a, b, c); 
endsub; 
run; 
quit; 


这 样 就 可 在 DATA 步 中 重用 该 矩阵 函数 了 《〈 见 程序 16-3) ， 可 以 根据 需要 在 FCMP 
中 扩展 任意 矩阵 运算 操作 供 DATA 步 使 用 。 


程序 16-3 ”如 何在 DATR 步 中 使 用 FCMP 和 矩阵 处 理 功能 

options cmplib-work.funcs; 

data null ; 
array ma 2 3[2,3] (1, 2, 3, 4, 5, 6); 
array ma 3 2[3,2] (1, 2, 3, 4, 5, 6); 
array mo 2 2[2,2]; 
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/*call mult(ma 2 3, ma 3 2, mo 2 2); 直接 调用 会 失败 */ 
call m mult(ma 2 3, ma 3 2, mo 2 2); 


do i-1 to 2; 
put "("umo:2 201:1] 3,7," me 2 ZU 2] 3: "y": 
end; 
run; 
quit; 


系统 输出 : 


(22, 28) 
(49, 64) 


16.2 DS2 和 矩阵 运算 


YE J DATA 步 的 第 二 代 语 言 ， DS2 对 矩阵 的 支持 更 加 丰富 ，DS2 采用 包 程 序 
MATRIX 将 矩阵 运算 进行 封装 ， 采 用 对 象 引用 的 方式 进行 调用 。 比 如 : 


dcl package matrix ml (2,3); 
dcl package matrix m2(3,2); 
dcl package matrix m3; 
m3-ml.mult (m2); 


DS2 的 包 程序 MATRIX 对 象 封装 了 如 下 方法 ， 我 们 很 容易 进行 高 级 矩阵 运算 ， 
K 16-1 列 出 了 DS2 MATRIX 对 象 支持 的 所 有 成 员 方法 。 


X 16-1 DS2 Matrix 对 象 的 矩阵 运算 函数 
一 元 运算 作用 于 每 个 元 素 ， 执 行 在 单个 矩阵 上 ;， 矩阵 必须 是 
方块 矩阵 或 奇异 矩阵 
* INVERSE 矩阵 求 着 ， 要 求 矩阵 为 方块 矩阵 
DET 矩阵 求 行列 式 ， 要 求 矩 阵 为 方块 矩阵 
TRANS 矩阵 转 置 
EXP 指数 值 


LOG 取 自 然 对 数 
SQRT 为 开 方 运算 


ABS 取 绝 对 值 
FLOOR 向 下 取 整 


COPY 复制 整个 矩阵 


加 法 / 减法 : 两 个 矩阵 的 行列 必须 相同 ， 或 者 第 二 个 矩阵 为 
1x1 矩阵 ， 即 按照 标量 处 理 ， 遇 到 缺失 值 不 会 显 式 报告 错误 
和 矩阵 乘法 : 第 一 个 矩阵 的 列 和 第 二 拢 阵 的 行 必须 相等 ， 遇 
到 缺失 值 会 报 运行 时 错误 
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CEK) 
说 ç 明 


。 和 矩阵 元 素 对 应 位 置 进行 二 元 关系 比较 ， 结 果 为 由 0 或 1 组 
成 的 矩阵 


单个 标量 ， 而 非 矩阵 


ANY EQ 
ANY GE 
ANY GT 
ANY LE 
ANY LT 
ANY NE 


* SEPEKZINASARUHI S, EHETE, FR cit 0 或 
1 组 成 的 矩阵 。 分 别 表 示 等 于 、 大 于 等 于 、 大 于 、 小 于 等 于 、 
小 于 、 不 等 于 关系 


* 任何 一 个 元 素 罗 辑 比较 为 真 ， 则 返回 1， 否 则 为 0 


* 和 矩阵 所 有 对 应 元 素 的 比较 都 是 1， 则 返回 1， 和 否则 为 0 


。 适用 于 一 般 矩 阵 ， 第 二 个 矩阵 可 以 是 相同 大 小 的 矩阵 ， 也 
可 以 是 行 数 〈 或 列 数 ) 相等 的 行 矩阵 《或 列 矩阵 ) ,或 者 
是 1xl 矩阵 〈 标 量 ) 

。 对 每 个 对 应 元 素 逐 一 进行 运算 ， 包 括 乘 、 除 、 指 数 、 除 余 、 

最 小 值 、 最 大 值 等 。 


dcl package matrix m([rows, cols]): 

或 者 

dcl package matrix m; 

m- new matrix(2. 2): 

。 删除 矩阵 对 象 实例 

。 返回 矩阵 行 数 

。 返回 矩阵 列 数 

。 加 载 数组 到 矩阵 中 , 支持 标准 数组 和 变量 数组 (VARARRAY) 

* 输出 矩阵 到 数组 中 ， 也 可 用 第 2 个 参数 指定 矩阵 的 目标 行 
或 来 源 行 ，DS2 数组 可 进一步 用 OUTPUT 语句 输出 到 SAS 
数据 集 


。 将 整个 矩阵 数据 输出 到 标准 数组 
。 将 整个 矩阵 数据 输出 到 变量 数组 CVARARRAYO 


DS2 矩阵 使 用 构造 器 创建 时 会 自动 填充 0 值 而 非 缺 失 值 。 对 于 空 值 或 缺失 值 ， 和 矩阵 
加 减法 并 不 报错 ， 而 矩阵 乘法 则 会 报 运行 时 错误 ， 当 出 现 除 零 错误 时 ，SAS 日 志 一 般 不 
报告 错误 而 是 直接 返回 缺失 值 。 对 于 DS2 线程 程序 中 定义 的 矩阵 对 象 ， 每 个 线程 有 自己 
的 矩阵 实例 ，MATRIX 对 象 不 支持 在 节点 或 线程 上 进行 数据 分 区 来 实现 并 行 矩 阵 运 算 ， 
每 个 线程 只 在 自己 的 MATRIX 对 象 实例 上 进行 工作 。 

下 面 举例 说 明 DS2 中 和 矩阵 操作 ， 如 和 矩阵 数据 的 读 写 。 通 常 需要 使 用 IN/OUT 方法 从 
数据 集中 读 取 数 据 ， 运 算 后 写 回 。 大 多 数 和 矩阵 运算 都 需要 使 用 类 似 的 逻辑 ， 并 保存 结果 
到 SAS 数据 集中 。 程 序 16-4 展示 了 DS2 矩阵 操作 的 基本 用 法 。 


程序 16-4 ps2 矩阵 操作 示例 ,输出 逆 和 矩阵 和 单位 矩阵 
data A; /* 生 成 4x4 的 数据 集 ， 变 量 为 x1-x4*/ 
array x[4]; 
infile datalines; 
input xl-x4; 
datalines; 


proc print data-A; 
title "原始 矩阵 "; 


run; 


proc ds2; 
data B(keep-(yl y2 y3 y4)) E(keep-(z1 z2 

vararray double x[4]; 
dcl package matrix m; 
dcl package matrix m i; 
dcl package matrix m e; 
dcl double a[4, 4]; 
dcl int r c; 
vararray double y[4]; 
vararray double z[4]; 


method init(); 


m- new [this] matrix(4, 4); 
get; 
end; 


method run(); 
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z3 z4))/overwrite-yes; 


set A; /* 指 定 输入 数据 集 */ 
m.in(x, r); /* 从 输入 数据 集中 读 取 一 行 ， 放 到 矩阵 r 行 中 */ 
zc ogg 

end; 


method term(); 
m i-m.inverse(); 
do r-1 to 4; 
m i.out(y, r); 
output B; 
end; 


m e-m.mult(m i); /* 生成 单位 矩阵 E*/ 
do r-1 to 4; 
m e.out(z, r); 
output E; 
end; 


m i.toarray(a); 

do r-1 to 4; 

1] 7.2 a[r, 2] 7.2 ale 
end; 

enddata; 

run; 

quit; 


/* 打 印 结果 矩阵 */ 
proc print data-B; 


3] 


/* 和 矩阵 数据 已 经 准备 好 ， 求 逆 和 矩阵 */ 
/* 借助 全 局 变量 数组 y WEWER B*/ 


/* 借助 全 局 变量 数组 z 输出 4 阶 单位 矩阵 E*/ 


/* 输出 矩阵 m i 到 数组 a 并 打印 到 日 志 */ 


7.8 a[r, ii 7.97 
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title "XE"; 


proc print data-E; 
title "单位 矩阵 "， 
run; 
如 果 不 使 用 自 带 隐 性 循环 的 系统 函数 RUN， 则 可 以 在 INIT 函数 中 自己 构造 循环 来 
完成 矩阵 数据 的 加 载 〈 见 程序 16-5) 。 


程序 16-5 在 INIT() 系统 方法 中 初始 化 矩阵 数据 
method init(); 
m- new [this] matrix(4, 4); 
do r-1 to 4; 
set A; 
m.in(x,r); 
end; 
end; 


16.3 JBIJYHI: 线性 方程 组 求解 


中 国 古 代 算 书 《 和 孙子 算 经 》 中 提出 著名 的 鸡 兔 同 笼 问题 ， 其 原文 为 : SAREE, 
上 有 三 十 五 头 ， 下 有 九 十 四 足 ; 问 维 免 各 几何 。 现 在 我 们 知道 该 问题 可 以 归结 为 二 元 一 
次 线性 方程 进行 求解 ， 即 假定 x 为 鸡 ，y 为 免 ， 则 x+y =35，2x+4y=94, R=? y=? 的 
问题 。 

现在 要 用 SAS 编程 来 求解 给 定 的 线性 方程 组 。 我 们 知道 一 元 一 次 方程 ax= “的 解 是 
利用 a 的 逆 运 算 a? 去 乘 两 边 ， 得 到 ax/a=b/la， 即 x=b/la。 同 理 ， 多 元 线性 方程 组 AX-B 
也 可 采用 相同 的 思路 求解 ， 其 中 AX-B 为 方程 组 的 向 量 表达 ，A4 为 n WÓBEE, X. BA 
列 向 量 。 只 不 过 和 矩阵 4 采用 的 逆 运 算 为 矩阵 求 逆 47 而 不 是 标量 的 倒数 〈 注 : 矩阵 乘法 
不 满足 交换 律 不 能 写成 /4) ， 然 后 AC 左 乘 B 即 可 得 到 列 向 量 疏 的 值 。 

比如 ， 上 面 鸡 兔 同 笼 问题 的 方程 xty =35，2x+4y=94 写成 矩阵 形式 为 


k dlsi 

ERRE- nan ezcindnsemoere |, 站 化 掉 即 可 ， 而 化 掉 该 矩阵 只 需 等 式 
两 边 乘 以 其 逆 矩 阵 | 1 “9 引 即 可 。 

Li osl dbl- sls 

由 上 面 的 方程 进一步 化 简 可 得 : 

b pH 93083]. mpi] t23, 712, 825 只 鸡 和 12 只 免 。 


根据 上 面 的 分 析 写成 DS2 矩阵 运算 程序 〈 见 程序 16-6) ， 其 中 算 阵 求 逆 是 通过 算 
阵 的 inverse 方法 求 得 。 读 者 可 修改 参数 来 求解 任意 线性 方程 组 。 


程序 16-6 求解 线性 方程 组 : 鸡 兔 同 笼 问题 
proc ds2 ; 
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data dsI(keep-(yl y2)) dsZ(keep-(z)) / overwrite-yes; 


vararray double y[2];/*1$8H3ÉAEPEEGESE dsl 用 */ 
dcl double z ;/* 输 出 结果 向 量 数据 集 dsz 用 */ 


method init(); 


dcl package matrix m A; 
dcl double a[2,2]; 

dcl package matrix m B; 
dcl double b[1,2]; 

dcl package matrix m i; 
dcl package matrix m X; 
dcl double x[ 2]; 

dcl int i; 

a:-(1, 1, 2, 4); 


| A- new matrix(2,2); 
m A.load(a); 


b:-(35, 94); 
m B- new matrix(2,1); 
m B.load(b); 


m i-m A.inverse () ;/* 和 矩阵 求 道 */ 
do i-1 to 2; 

m i.out(y, i);output dsI; 
end; 


m X-m i.mult( m B ); 
m X.toarray(x); 
do i-1 to 2; 
z-x[i];output ds2; 
end; 
end; 
enddata; 
run; 
quit; 
/* TEE PERIZS AR (8) BE * / 
proc print data-dsi;run; 
proc print data-dsz;run; 


系统 输出 如 图 16-2 所 示 ， 左 右 两 个 数据 集 分 别 为 逆 矩 阵 和 结果 向 量 。 


Obs yl y2 Obs z 
1| 2/05 123 
2/4/05 2/12 

aas ah s 


图 16-2 ” 德 阵 的 逆 与 结果 向 量 
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16.4 EREM: 非 线性 方程 组 求解 


当 某 个 方程 中 因 变 量 与 自 变量 的 关系 不 是 一 次 震 关 系 ， 而 是 平方 关系 、 对 数 关 系 、 
指数 关系 或 三 角 函 数 关系 时 ， 则 该 方程 为 非 线 性 方程 。 只 要 方程 组 中 有 任何 一 个 方程 为 
非 线性 方程 时 ， 它 们 构成 的 方程 组 就 是 非 线 性 方程 组 。 数 学 上 已 知 ， 非 线性 方程 一 般 不 
能 求 得 精确 解 ， 只 能 利用 办 代 法 求 近似 解 ， 其 数学 基础 依然 是 和 矩阵 运算 。 

现在 以 下 面 的 非 线性 方程 组 为 例 ， 探 讨 如 何 用 SAS 程序 求解 非 线性 方程 组 的 根 六 


和 x。 
—-10x +x; +8=0 


xx? +x -10x,48-0 


EREN aa a) 
对 于 上 面 的 非 线性 方程 组 ， 我 们 可 将 它 记 为 ec- PE Ira ， 写 成 向 量 形 


AE X» s X, 


式 即 为 F(x)=0。 

假设 x" Gs xS os x57 是 F(x)=0 的 第 大 次 近似 根 ， 将 函数 F(x) 的 每 个 分 量 
在 xc xc97 处 进行 多 元 泰勒 展 
开 并 取 到 一 次 项 为 止 ， 则 有 


cL 2e) 


Yr Gu x5t e (x,-x,-0 


S Cys xy. 1. 2,)7] fe 


写成 向 量 形式 为 
FO) = FHF =0 
则 根据 牛顿 法 定义 ， 若 705 非 奇 ， 第 大 次 近似 根 可 根据 如 下 公式 得 到 ， 其 中 初始 
向 量 x 为 假设 值 。 
x'ioxPo*rG5, Mn k-0.1,-- 
ARH ro^) 为 过 处 的 雅 可 比 矩 阵 ， 它 是 由 方程 的 一 阶 偏 导数 按 一 定 方式 排列 构成 
的 矩阵 ， 利 用 它 可 以 对 一 个 可 微 的 方程 和 目标 点 进行 最 优 线性 逼近 。 


ax) e) e) 


计算 时 先 人 为 假设 初始 近似 解 向 量 x*， 算 出 Fo^) 和 下 '(x*)， 然 后 解 牛 顿 线性 方程 
组 F(x“) ^x—F^) 得 到 A, MAA A a A. A AE 逐次 欠 代 计算 出 
x, a, e, x6 GRRE) o BOE EDINE FE VER" 附近 连续 ， 非 奇异 且 F'O 在 
x Api e At p) - n (x). Rt cT A CREARE UR 
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具体 到 上 面 的 非 线性 方程 组 ， 假 定 自 变量 为 x,、x,， 则 定义 两 个 函数 : 
fien x)= - 10x 25 8-0 
fo. x5) xy 710x870 
即 
E a 
7 je ox; +x 10x, 48 
对 F(x) 的 每 个 分 量 fin, x). f. x2) YE a^ 处 分 别 对 x x 求 偏 导数 可 得 雅 可 比 矩 阵 
JG): 
ex) ox) 
Ox, Ox, ze -10 2x, | 


or (x) of, (x*) qx xx2x,-10 
E 


- 2 
10x, x; +8 ， 其 中 =1 2， 记 为 Fao。 


F(x)- 


„ [20 2x 
JEJE x241 xix2x-10 


由 于 J(x*)-= m IE f(x)» FEREN JES MENSE 都 可 以 从 初始 (=0) 人 为 
x Am 
menn S usen. EN Ja. 编程 实践 中 一 


般 可 以 用 迭代 误差 eps 或 者 迭代 次 数 大 来 控制 迭代 进程 。 

至 此 ， 基 于 上 面 的 理论 分 析 ， 我 们 就 可 以 编写 程序 16-7 来 对 某 个 具体 的 二 元 非 线 性 
方程 组 进行 求解 。 

程序 16-7 求解 非 线性 方程 组 示例 : 二 元 二 次 方程 

Proc ds2; 


data dsZ / overwrite-yes; 
dcl double z; 


/* 计 算 向 量 F */ 
method getVectorF (double x[2], double f[2,1]); 


f[1,T] = x[pr]**2 — 10*x[1] + xp2]**2 + 8; 
f[2,1] = xIf]*x[2]**2 + x[1] = 10*x[2] + üp 
end; 


J+A EERE */ 

method getMatrixJ(double x[2], double j[2,2]); 
j[1,11 = 2*x[1]-10; 3ji1,21 = 2 * xI21; 
jI2,1] = x[2]**2*17; j[2,2] = x[1]*2*x[2]-10; 

end; 


/*ikIBIABRERSTEASS SR, BURRUEERÉSECA MA */ 
method norm(double x[*]) returns double; 
dcl int i; 
dcl double maxabsx; 


maxabsx-abs (x[1]); 
do i-2 to dim(x); 

if abs(x[i])» maxabsx then maxabsx-abs (x[i]); 
end; 
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return maxabsx; 
end; 


/* 方 程 求解 主 程序 入 口 Main*/ 
method init(); 
dcl package matrix m jx; 
dcl double j[2,2]; 


dcl package matrix m fx; 
dcl double f[2,1]; 


dcl package matrix m y; 
dcl double y[2,1]; 


dcl package matrix m xk n; 
dcl double x[2]; 


dcl package matrix m xk; 
dcl double xk[2]; 


dcl double xk diff[2]; 
dcl package matrix m ji; 


dcl int k i; 
dcl double eps; 


m jx = new matrix(2, 2); 
m fx = new matrix(2, 1); 
m xk = new matrix(2, 1); 
eps = 1; 


k= 0; 


/* 假定 xk 是 F (x)=0 第 1 次 近似 根 */ 

xk[1] = 0 ; 

xk[2] = 0; 

put '>(' xk[1] best5.2',' xk[2] best5.2')'; 


do while(eps »10**-9 and k < 1000 ); 
getVectorF(xk, f);/* 利用 x[k] 计算 函数 向 量 F */ 
m fx.load(f); 


getMatrixJ(xk, j);/* 利用 xik] iHWOESILÓBRE J */ 
m jx.load(j); 


m ji = m jx.inverse();/* XJT HERR / 
m y = m ji.mult(m fx);/* 与 函数 向 量 相 乘 */ 


m xk.load(xk); 

m xk n = m xk.sub(m y); /*Y W S EGER / 
m xk n.toarray(x); 

xk := x; 


m y.toarray( xk diff);/* 计算 迭代 误差 */ 
eps = norm( xk diff ); 


k+l; 
put k '(' x[1] best5.2 ',' x[2] best5.2 ')' eps= best9.7; 

end; 

put '! (' x[1] best5.2 ',' x[2] best5.2 ')' eps- best9.7; 


do i-1 to dim(x); 
z-x[i]; output; 
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end; 
end; 
enddata; 
run; 
quit; 
proc print data-dsZ;run; 


系统 日 志 输 出 如 下 ， 结 果 输 出 如 图 16-3 所 示 。 


E i 0, 0) 

ii 0.8, 0.88) eps=0.88 

2( .992, 0.992) eps-0.1917872 
3 ( 1, 1) eps=0.0082568 
A | 1, 1) eps-0.0000315 
5 ( 1, 1) eps-3.935E-10 
! ; 1) eps-3.935E-10 


即 程序 迭代 5 次 求 得 方程 组 的 根 为 x=1，xw=1， 代 入 原 方程 组 验证 无 误 。 


Obs z 
11 
2.1 


图 16-3 ” 非 线性 方程 组 的 根 


对 于 其 他 多 元 非 线 性 方程 组 ， 都 可 以 用 类 似 的 方法 进行 求解 。 下 面 再 举 一 个 包含 三 
角 函 数 和 指数 函数 的 非 线性 方程 组 ， 并 探讨 如 何 用 SAS 编程 进行 求解 。 

3x1-cos(xxx3)-0.5=0 

xj-81(x,40. 1) sin(x;)41.06-0 

e"?*20z-(101-3)/3-0 

求解 思路 是 一 样 的 ， 首 先 可 以 定义 F(x) 为 


3x1-cos(xxx3)-0.5 
f= sar eo 
esH20x3+(10r-3)/3 
Fo 的 3 APESE 2» xy). fo. X» X) AE xy 23) TE 对 处 分 别 对 Xp x 2 2K fil 
导数 得 到 雅 可 比 矩 阵 (x“)， 关 于 如 何 计算 偏 导数 读者 可 查阅 相关 书籍 和 教材 。 


a) e) e) 
"petes im(sm) sin(a) 
k k k 3 xsin(x,x, x,sin(xx, 
F(xz)- as ( ) AG ) LAG ) =| 2% —81x2(x+0.1) cos(x) 
G s ex, —xe h -qe ™™ 20 
a(t) al) A) 
ru cur 


J(x)-| 2 -81x2(x, +0.1 cos 
如 2 x 


xl 


-Hë 


3 x sin(x, x) x, sin (x323) 
= 20 
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不 同 的 非 线 性 方程 组 求解 就 是 其 矩阵 行列 大 小 不 同 ， 初 始 向 量 X. pli FODBPEEJ 
的 计算 方式 不 同 而 已 ， 通 常 要 求 具体 问题 具体 分 析 。 程 序 16-8 展示 了 该 三 元 非 线性 方程 
组 的 求解 方法 。 

程序 16-8 求解 非 线 性 方程 组 示例 : 包含 三 角 函 数 和 指数 函数 的 三 元 二 次 方程 

proc ds2; 


data dsZ / overwrite-yes; /* 计 算 结果 输出 到 数据 集 dsz 中 */ 
dcl double z;/* 输 出 结果 的 列 名 */ 


/* 计 算 向 量 F - 因 方 程 组 不 同 而 不 同 */ 
method getVectorF(double x[3], double f[3,1]); 


f[1,1] = 3*x[1] - cos(x[2]*x[3]) - .5; 

f[2,1] = z[T]**2 一 BI*(x[2]t.T)**2 + sin(x[3T) + 1.06; 

f[3,1] = exp(-x[1]*x[2]) + 20*x[3] + (10*constant('PI') - 3)/3.0; 
end; 


MAETH s- 因 方 程 组 不 同 而 不 同 */ 
method getMatrixJ(double x[3], double j[3,3]); 


j[1,1] = 3; 
j[1,2] = x[3]*sin(x[2]*x[3]); 
j[1,3] = x[2]*sin(x[2]*x[3]); 
j[2,1] = 2*x[1]; 
j[2,2] = -162* (x[2]*.1); 
j[2,3] = cos(x[31); 
j[3,1] = -x[2]*exp(-x[1]*x[2]); 
j[3,2] = -x[1]*exp(-x[1]*x[2]); 
j[3,3] = 20; 

end; 


/* 返 回 答 阵 的 无 穷 范 数 ， 即 取向 量 的 最 大 值 */ 
method norm(double x[*]) returns double; 
dcl int i; 
dcl double maxabsx; 
maxabsx-abs (x[1]):; 
do i-2 to dim(x); 
if abs(x[i])» maxabsx then maxabsx-abs (x[i]): 
end; 
return maxabsx; 
end; 


/* 非 线性 方程 组 求解 主 程序 Main*/ 
method init(); 
dcl package matrix m jx; 
dcl double j[3,3]; 


dcl package matrix m fx; 
dcl double f[3,1]; 


dcl package matrix m y; 
dcl double y[3,1]; 


dcl package matrix m xk n; 
dcl double x[3]; 


dcl package matrix m xk; 
dcl double xk[3]; 


dcl double xk diff[3]; 
dcl package matrix m ji; 
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dcl int k; 
dcl double eps; 
dcl int i; 


[MGE AT AÓBEE, JRURCTTREEGESILDABERJ, X 向 量 和 函数 F 向 量 */ 


m jx = new matrix(3, 3); 
m fx = new matrix(3, 1); 
m xk = new matrix(3, 1); 
eps = 1; 


k-0; 


/* 假定 初始 向 量 */ 


xE[I] ly 
xk[2] = 1; 
Xk[3] = 1; 


put "> (" xk[1] best5.2 "," xk[2] best5.2 "," xk[3] best5.2")"; 


do while(eps » 10**-9 AND k«1000); 
getVectorF(xk, f);/* 利用 x[k] 计算 函数 向 量 F */ 
m fx.load(f); 


getMatrixJ(xk, j);/* 利用 x[k] HATE J */ 
m jx.load(j); 


m ji = m jx.inverse();/* XiXEUDLDABEEXGE / 
m y = m ji.mult(m fx);/* 与 函数 向 量 相 乘 */ 


m xk.load(xk); 
m xk n = m xk.sub(m y) ;/* 计 算 下 一 通 近 点 */ 
m xk n.toarray(x); 


m y.toarray( xk diff);/* PARERA ERA HOAN IRA */ 


eps = norm( xk diff ); 


ki 
put k '(*' x[1] best5.2 ',' x[2] best5.2 ',' x[3] best5.2')' 
eps- best9.7; 
end; 
put '! (' x[1] best5.2 ',' x[2] best5.2 ',"' x[3] best5.2')' 
eps- best9.7; 


do i-1 to 3; 
z-x[i]; output;/* 输 出 结果 向 量 */ 
end; 
end; 


enddata; 
run; 


quit; 
proc print data-dsZ; run; 


系统 输出 如 图 16-4 所 示 ， 方 程 组 求解 系统 迭代 8 次 后 得 到 方程 组 的 近似 根 为 x,=0.5， 
x50, -0.52， 感 兴趣 的 读者 可 以 代入 原 方程 组 进行 验证 。 


[LN 


iy d 1) 
0.92, 0.461, -0.5) eps-1.5033876 
.501, 0.187, -0.52) eps-0.4186867 
.501, 0.061, -0.52) eps- 0.12628 
0.5, 0.012, -0.52) eps-0.0495363 
0.5, 61E-5, -0.52) eps-0.0110115 
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5, 18E-7, -0.52) eps=0.0006038 
.5, 2E-11, -0.52) .8264E-6 
5 
5 


; -0, -0.52) -671E-11 
ij; -0, -0.52) eps-1.671E-11 


-owo 
oooo 


Obs z 
1. 0.50000 
2 -0.00000 
3 -0.52360 


a 


图 16-4” 非 线性 方程 组 的 根 


数据 结构 


如 | 
[zz 


在 数学 上 ， 图 是 表示 两 事物 之 间 关系 的 基本 方法 ， 它 由 一 系列 顶点 以 及 连接 这 些 顶 
点 的 边 组 成 的 ， 通 常用 一 个 顶点 (Vertex) 组 成 的 集合 忆 和 一 个 边 Edge) 组 成 的 集合 
互 共同 表示 ， 其 中 矿 的 元 素 为 加 ，，…， 成 ， 而 EE 的 元 素 为 二 元 组 (世态) 。 如 果 
图 的 边 具 有 方向 性 ， 该 图 称 为 有 向 图 ， 否 则 为 无 向 图 。 如 果 每 条 边 都 关联 两 个 不 同 的 
顶点 ， 且 不 存在 两 条 边 它们 所 关联 的 顶点 是 相同 的 ， 则 该 图 为 简单 图 ， 否 则 为 多 重 图 。 
如 果 去 掉 某 个 边 可 导致 整个 图 分 裂 成 两 个 不 连通 的 图 ， 则 称 那 个 边 为 桥 ， 如 图 17-1 中 
Hu (Y, V,) 就 是 一 个 桥 。 


图 17-1 ”连通 图 与 桥 


在 一 个 图 中 从 顶点 V BTA 万 的 一 条 路 径 是 指 从 起 点 V, XS ex. 万 之 间 的 顶点 和 
边 的 集合 ， 记 为 Vo Vo ，…， 万 。 如 果 项 点 序列 V Vo =o V RAAHE ER) 
的 顶点 ， 此 路 径 (Path) 称 为 简单 路 径 。 如 果 顶 点 VMA 万 不 是 某 一 条 边 的 顶点 ， 但 
它们 之 间 存 在 通路 ， 则 该 通路 所 包含 的 边 长 之 和 称 为 该 路 径 的 长 度 d (Distance)。 比 如 ， 
图 17-2 中 顶点 Vo 到 顶点 Vs 的 其 中 一 条 路 径 Vo Vu, VS ROEBON S. 5 RP Vo 
Vo Vo Vo VIEBE 7. 


图 17-2 ”图 与 简单 路 径 V, Vs V, 


对 于 有 向 图 ， 如 果 某 个 顶点 万 有 di 条 边 以 它 为 终点 ，q 条 边 以 它 为 起 点 ， 则 d, d, 
分 别称 为 该 顶点 的 入 度 〈In-degree) 和 出 度 COut-degree) ， 相 应 的 边 称 为 入 边 和 出 边 。 
在 计算 机 系统 中 ， 图 可 由 邻接 表 或 邻接 矩阵 表示 ， 其 中 图 的 邻接 矩阵 表示 是 唯一 的 。 
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邻接 矩阵 是 一 种 特殊 的 二 维 数组 ， 其 行列 下 标 分 别 表示 邻接 关系 的 起 点 和 终点 ， 数 组 的 

值 表示 边 的 长 度 或 者 其 他 含义 。 比 如 ，E[， 克 =3 表示 从 顶点 V, 到 顶点 V, 之 间 有 边 相 

连 ， 其 长 度 为 3 。 上 面 的 无 向 图 可 用 如 下 二 元 组 G(V, E) 完整 表示 ( 见 图 17-3) 。 
J 


y 
888888^—oc 
888-3-8o60^wu 
8898-68-28 
8 oawon=ug 
8w8ccw8”88 
nog awgBg8B8 
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oo 
oo 
oo 
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9 
5 
y: 
0 
4 
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p3i 
- 
RJ 
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图 的 二 元 组 表 


17.1 深度 优先 和 广度 优先 遍历 


图 作为 比 树 更 加 复杂 的 数据 结构 ， 对 图 中 每 个 顶点 的 遍历 是 首先 需要 考虑 的 编程 问 
题 ， 它 也 包括 深度 优先 和 广度 优先 两 种 遍历 方法 。 

COD 深度 优先 遍历 ， 其 步骤 为 从 图 的 某 项 点 Vo 出 发 ， 访 问 页， 然后 选择 一 个 与 V, 
相 邻 且 没 有 访问 过 的 顶点 V ETT UP: 再 从 矿 出 发 选择 一 个 与 玉 相 邻 且 未 被 访问 的 顶 
点 万 进 行 访问 ， 依 次 继续 。 如 当前 被 访问 过 的 顶点 的 所 有 邻接 顶点 都 已 经 被 访问 过 ， 则 
退回 到 已 访问 的 顶点 序列 中 最 后 一 个 还 有 未 被 访问 的 相 邻 顶 点 Vo MA 到 出 发 按照 同样 
的 方法 继续 遍历 ， 直 到 图 中 所 有 顶点 都 被 访问 为 止 。 此 方法 与 二 叉 树 的 深度 优先 遍 
历 具 有 一 定 的 相似 性 。 比 如 图 17-2 按照 深度 优先 遍历 顺序 进行 遍历 ， 其 访问 遵循 从 
左 到 右 的 顺序 〈 见 程序 17-4) 。 


8i = 


图 17-4 图 的 深度 优先 遍历 


程序 17-1 是 笔者 实现 深度 优先 遍历 的 算法 ， 其 参数 Vertex 和 Edge 分 别 为 图 的 二 元 
组 GU, E) 表示 的 顶点 集 和 边 集 。 
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程序 17-1 图 的 深度 优先 遍历 算法 实现 


proc femp outlib-work.funcs.graph; 


/* 图 的 深度 优先 遍历 辅助 函数 */ 
function DFS (vertex[*] $, edge[*,*], visited[*], v); 
outargs visited; 
visited[v]-1; 
do i-1 to dim(vertex); 
if i^-v AND edge[v,i]^-constant("BIG") then do; 
if visited[i]^-1 then do; 
put (v-l) "—" (i-1); /* 遍历 路 径 */ 
rc-DFS(vertex, edge, visited, i); 
end; 
end; 
end; 
return(1); 
endsub; 


/* 图 的 深度 优先 遍历 主 函 数 */ 
function DFSTraverse (vertex[*] $, edge[*,*]); 
array visited[1] /nosymbols; 
call dynamic array(visited, dim(vertex)); 
do v-1 to dim(vertex); 
if visited[v]^-1 then rc-DFS(vertex, edge, visited, v); 
end; 
return (1); 
endsub; 
run; 
quit; 


然后 我 们 就 可 以 在 DATA 步 中 使 用 该 算法 。 首 先 要 用 二 元 组 表示 该 图 ， 共 有 9 个 顶 
点 ，16 条 边 。 那 些 彼 此 不 相连 的 顶点 之 间 的 路 径 长 度 被 初始 化 为 无 穷 大 。 为 了 让 准备 图 
的 数据 结构 代码 可 复 用 ， 将 它 包 装 为 SAS 宏 %PrepGrap0 进行 调用 《〈 见 程序 17-2) o 

程序 17-2 ”图 的 深度 优先 遍历 示例 

&macro PrepGraph () ; /* 准 备 图 的 数据 结构 */ 


numVertexes-9; 
numEdges-16; 


/*1.。 生成 图 的 项 点 V={ VO--V8 }， 下 标 基 于 1 */ 


array vertex[9] $ _temporary_ 
do i=1 to 9; 

x=i-1; 

vertex[i]-'V'|| trim(left(x)); 
end; 


/*2.1 生成 图 的 边 E-( numVertexes X numVertexes }， 初 始 化 为 无 穷 大 */ 
INFINITY-CONSTANT ('BIG'); 
array edge[9,9] temporary ; 
do i-1 to numVertexes; 
do 1 to numVertexes; 
if i-j then edge[i,j]-0; 
else do; 
edge [i,j]-INFINITY; 
edge[j,i]-INFINITY; 
end; 


end; 


/*2.2 构造 顶点 之 间 的 边 ， 下 标 基于 1*/ 
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edge[1,3]-5; 
edge[2,4]-7;  edge[2,5]-5; 
edge[3,6]-7; 
edge[4, 7]-3; 
edge[5,7]-6;  edge[5,8]-9; 


edge[7,9]-7; 


edge[8,9]-4; 


/*2.3 WE —FÓBEERUA TL f8. AKARE E 
do i-1 to numVertexes; 
do j-i to numVertexes; 
edge[j, il-edge[i,j]; 
end; 
end; 
Smend; 


/* 测 试 程序 开始 */ 
options cmplib-work.funcs; 
data null ; 
*$PrepGraph; 
put 'DFS Traverse'; 
rc-DFSTraverse(vertex, edge); /*3. 图 的 深度 优先 遍历 * / 
run; 


运行 上 面 的 代码 后 ， 系 统 输出 如 图 17-5 所 示 。 


ra 语句 ”所 用 时 间 《 益 趟 理 时 介 ) = 
enp 
p 


图 17-5 图 的 深度 优先 遍历 
(2) 广度 优先 遍历 : 其 步骤 为 从 图 的 某 顶 点 V, BAS. Vile] 泰然 后 标记 该 顶点 为 
已 访问 ， 接 着 访问 万 所 有 未 被 访问 过 的 天 个 邻接 点 页， 砍 ，…， 了 到 并 将 它们 标记 为 已 
Wild: 然后 再 按照 Va. Vs, s Va 的 顺序 依次 访问 它们 所 有 未 被 访问 过 的 邻接 点 ， 并 
将 它们 标记 为 已 访问 ， 依 此 类 推 直到 图 中 所 有 和 初始 点 万 连通 的 顶点 被 访问 过 为 止 。 前 
面 的 图 按 广度 优先 顺序 遍历 为 


0 -> 1, 0 -> 2; 1 -> 3, 1 -> 4, 2 -> 5; 3 -> 6,4 -> 7; 6 -> 8e 


遵循 从 左 到 右 ， 从 上 到 下 的 访问 顺序 〈 带 箭头 的 边 ) 〈 见 图 17-6) 。 


图 17-6 图 的 广度 优先 遍历 
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程序 17-3 是 笔者 用 SAS 实现 的 广度 优先 遍历 算法 ， 其 中 用 了 一 个 虚拟 队列 编程 技 
巧 实现 动态 添加 下 一 次 需要 访问 的 节点 集合 。 


程序 17-3 图 的 广度 优先 遍历 算法 实现 
proc fcmp outlib-work.funcs.graph; 
/* 图 的 广度 优先 遍历 */ 
function BFSTraverse (vertex[*] $, edge[*,*]); 
array visited[1] /nosymbols; 
call dynamic array(visited, dim(vertex)); 


array queue[1] /nosymbols; 
call dynamic array(queue, dim(vertex)); 


head-1; 
tail-1; 


do v-1 to dim(vertex); 
if visited[v]^-1 then do; 
visited[v]-1; 


queue [tail]-v; 
tail-tail*1; 


do while (head«tail); 
v2-queue [head] ; 
head-head*1; 


do i-1 to dim(vertex); 
if i^-v2 AND edge[v2,i]^-constant("BIG") then do; 
if visited[i]^-1 then do; 
put (v2-1) "-»" (i-1);/* 遍 历 路 径 */ 


visited[i]-1; 


queue[tail]-i; 
tail-tail*l; 
end; 
end; 
end; 
end; 
end; 
end; 
return (1); 
endsub; 
run; 
quit; 


复 用 前 面 例子 中 所 用 的 图 的 二 元 组 图 数据 结构 ， 调 用 广度 优先 遍历 算法 只 需 将 调用 
方法 名 改 为 BFSTraverse 即 可 〈 见 程序 17-4) o 


程序 17-4 广度 优先 遍历 示例 
options cmplib-work.funcs; 
data null ; 
$PrepGraph;:; 
put 'BFS Traverse'; 
rc-BFSTraverse(vertex, edge); /* 图 的 广度 优先 遍历 */ 
run; 


此 时 系统 输出 结果 如 图 17-7 所 示 。 
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图 在 表述 事物 之 间 的 特定 关系 方面 非常 有 用 ， 其 中 顶点 表示 事物 ， 边 表示 事物 之 间 
的 关系 。1736 年 欧 拉 关于 柯 尼 斯 堡 七 桥 问 题 的 论文 ,开启 了 图 的 研究 而 发 展 出 数学 分 支 
“图 论 ”。 七 桥 问题 说 的 是 当时 东 普 鲁 士 的 柯 尼斯 堡 市 〈《 见 图 17-8 左 ) ， 市 区 的 河 里 有 
两 座 小 岛 ， 其 中 一 座 小 岛 与 两 岸 各 有 1 座 桥 相连 ， 而 另 一 座 小 岛 与 两 岸 各 有 2 座 桥 相连 ， 
两 座 小 岛 之 间 还 有 1 座 桥 相 连 。 问 题 是 我 们 能 不 能 只 走 一 遍 就 将 所 有 的 桥 都 走 遍 ? 


) 


图 17-8 柯 尼斯 堡 七 桥 拓扑 图 


如 果 将 地 图 中 陆地 抽象 为 图 的 顶点， 最 终 可 以 得 到 右 侧 的 拓扑 图 CLE 17-8 右 ) 。 
欧 拉 经 过 思考 后 把 这 类 问题 的 本 质 归 结 为 “一 笔画 ” 问题 ， 即 无 重复 一 次 遍历 所 有 顶点 
的 问题 。 他 最 后 给 出 了 这 类 问题 的 数学 判定 法 则 : 即 所 有 项 点 的 边 数 为 偶数 ， 或 者 只 有 
2 个 边 数 为 奇数 的 项 点 ， 可 以 无 重复 一 次 遍历 ; 如 果 存 在 2 个 以 上 边 数 为 奇数 的 顶点 则 
不 可 能 无 重复 一 次 遍历 ， 它 需要 边 数 为 奇数 的 顶点 数 的 一 半 次 数 才能 完全 人 遍历。 

图 在 研究 拓扑 关系 方面 也 具有 重要 意义 ， 如 著名 的 四 色 问 题 : 是 否 任何 一 幅 画 在 平 
面 上 的 地 图 都 可 以 仅 用 4 种 颜色 染色 ， 使 任意 两 个 相 邻 的 国家 颜色 不 同 ? 只 要 将 地 图 的 
接壤 关系 转化 为 以 国家 为 顶点 的 无 向 图 ， 从 而 变 成 探讨 是 否 只 用 4 种 颜色 给 顶点 进行 染 
色 而 不 出 现 邻 接 项 点 同色 的 问题 。 


17.2 最 短路 径 问 题 


在 计算 机 软件 工程 领域 研究 最 多 的 是 图 的 最 短路 径 问 题 ， 即 如 何在 图 中 从 顶点 V, $8 
目标 万 点 之 间 寻 找 一 条 最 短路 径 ， 使 从 顶点 V, UTR ER. 万 的 成 本 最 小 。 现 实生 活 中 的 汽 
车 导航 和 路 线 规划 问题 ， 都 是 图 的 最 短路 径 问 题 在 实际 生活 中 的 应 用 ， 而 最 短路 径 问题 
又 可 分 为 以 下 4 种 情况 。 

CD 起 始 顶 点 确定 ， 寻 找 它 与 目标 顶点 之 间 的 最 短路 径 问 题 。 
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(2) 目标 顶点 确定 ， 寻 找 从 起 始点 到 它 之 间 的 最 短路 径 问题 ， 在 无 向 图 中 它 与 第 1 
种 情况 等 价 ， 在 有 向 图 中 可 将 所 有 路 径 方 向 反 转 变 成 第 1 类 问题 进行 处 理 。 

G) 给 定 两 个 点 作为 起 点 和 目标 项 点 ， 求 两 者 之 间 的 最 短路 径 ， 即 路 径 规划 问题 。 

(4) 计算 图 中 所 有 连通 的 顶点 之 间 的 最 短路 径 ， 即 全 局 最 短路 径 计算 问题 。 

各 类 最 短路 径 问 题 可 以 分 别 采 用 Dijkstra 算法 、SPFA 算法 和 Floyd-Warshall 算法 进 
行 求解 ， 各 种 算法 需要 在 实际 应 用 中 恰当 选择 。 


17.2.1 Dijkstra 算 法 


戴 克 斯 特 拉 算 法 (Dijkstra's Algorithm). 采用 广度 优先 搜索 来 形成 一 个 最 短路 径 
树 ， 适 用 于 不 包含 负 权 《〈 即 边 长 为 负数 ) 的 有 向 图 。 它 通过 为 每 个 项 点 v 都 保留 从 给 
ERA s 到 它 的 最 短路 径 [v]. 〈 若 不 连通 的 假定 为 无 穷 大 ) 和 最 短路 径 前 置顶 点 p[y]; 
然后 使 用 贪心 算法 从 顶点 v 的 所 有 下 一 个 顶点 集中 找 出 最 短路 径 对 应 的 节点 w， 其 中 
dPw]=d[vjtedge(vw)。Dijkstra 算法 时 间 复 杂 度 为 OV Y 其 中 || 为 顶点 数 如 图 17-9 所 示 。 

Dijkstra 算法 的 核心 思想 是 深度 上 寻 路 : 对 于 给 定 初始 顶点 所 ， 从 与 它 连通 且 没 有 
访问 过 的 下 一 个 节点 中 ， 找 到 最 短 的 边 ， 将 该 边 的 顶点 严 选 入 路 径 中 ， 并 保留 Voy H 
最 短 距离 ， 依 此 类 推 即 可 。 对 于 具体 的 图 ( 见 图 17-9) 其 具体 算法 步骤 如 下 所 述 。 


01 50000 o om 
4 0 3 7 5 s o óo c 
53001 70 o o 
o 70 02 o 3 oc o 
w.5 1 20 3$ 6 9 ow 
00 70 3 00 5 o 
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图 17-9 Dijkstra 算法 范例 


COD 对 于 给 定 起 始 顶点 万， 我 们 知道 V 到 它 自身 的 距离 为 0， 即 d[V,]-0. 

(2) 从 矶 出发， 考察 万 ， 瑟 ， 距 离 分 别 为 1, 5， 择 其 短 者 万 ， 并 保留 最 短 距 离 
d[7]=0+1=1。 

G) 从 出 发 ， 考 察 V, Vy, Vo ERDIA 3,7,5, 择 其 短 者 Vo VERI Io ER PS 
d[V;]-143-4. 

(4) A V, th, 25 8€ V4, Vs, ERDIA 1,7, 择 其 短 者 Vo DRE dc el RS 
d[V;]-44175. 

O ATER, BR V, Vs Vo Vj, EADAK 2.3.69 AHHA V ERA 
WEB d[V;]-542-7. 

(6) 从 万 出 发 ， 考 察 于， 距离 为 3， 择 其 唯一 V6， 保留 最 短 距离 d[V.]- 743-10. 

CD AVER, ZX V, V, PBRERAE AU 2, 7 择 其 短 者 万， 保留 最 短 距离 
d[V;]-1042-12. 


EA SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


(8) AVNER, ZR V, Vo ERDIA S AFERAK 所 ， 保 留 最 短 距离 
d[V,]-1244-16. 
(9) 至 此 ， 到 V, 的 最 短路 径 16 已 算出 ， 路 径 为 Vy, Vi Vs» Vp Vy Vo Vp Vro 


实际 代码 实现 中 ， 每 个 顶点 V AUR BUG MAEA Vo 到 它 的 最 短 距离 和 前 置顶 点 信 
息 ， 这 样 我 们 就 可 以 获得 从 Vo 开始 到 达 任 意 一 个 连通 顶点 V, B cR PB A MRENE b 
Dijkstra 算法 要 求 距离 必须 是 连续 递增 且 该 图 具有 全 局 最 优 解 ， 它 不 支持 负 权 处 理 。 程 
序 17-5 为 笔者 用 SAS 语言 实现 的 Dijkstra 算法 。 

程序 17-5 Dijkstra 单 源 最 短路 径 算法 ， 不 处 理 负 权 

Proc fcmp outlib-work.funcs.graph; 

function shortestPath Dijkstra( edge[*,*], v0, dist[*], prev[*]); 


outargs prev; 
outargs dist; 


vcount-dim (prev); 


array flag[1] /nosymbols; 
call dynamic array(flag, vcount); 


do v=1 to vcount; 


flag[v] 70; HAA v 是 否 已 寻 得 最 短路 径 标志 */ 
dist[v]-edge[vO , v]; /* 保 留 起 点 v0 到 顶点 v 的 最 短 距离 */ 
prev[v]=0; /* 顶 点 v 的 前 置顶 点 */ 

end; 


dist[v0]-0; /*v0 Æ v0 距离 为 0*/ 
flag[v0]-1; /* 由 于 vo 是 起 点 ， 所 以 它 不 需 寻找 最 短路 径 */ 


INFINITY-CONSTANT('BIG'); 
/* 开 始 主 循环 ， 每 次 求 得 V0 到 某 个 V 顶 点 的 最 短路 径 */ 
do i=2 to vcount; 

/+ 搜索 前 置顶 点 中 diu) 最 小 值 的 顶点 u*/ 

dist u-INFINITY; 

do v-1 to vcount; 

if (flag[v]^-1& dist[v]«dist u) then do; 
dist u-dist[v]; 


u-v; 
end; 

end; 

flag[u]71; 


/* 搜 索 项 点 u 连通 的 边 中 最 小 的 那个 顶点 v， 将 其 前 置顶 点 置 为 u 并 修正 最 短 距离 */ 
do v-1 to vcount; 
if (flag[v]^-1 & (dist u + edge[u , v]« dist[v])) then do; 
dist[v]-dist u * edge[u , v]; 
prev[v]-u; 
end; 
end; 
end; 
return (1); 
endsub; 
run; 
quit; 


为 了 将 最 短路 径 信息 打印 出 来 ， 还 需 定义 如 下 printPath 函数 ， 如 程序 17-6 所 示 。 
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程序 17-6 打印 最 短路 径 的 辅助 函数 PrintPath 实现 
proc fcmp outlib-work.funcs.graph; 
/* 打 印 从 vo 出 发 到 任意 连通 项 点 的 最 短路 径 的 长 度 和 顶点 信息 */ 
function printPath(vertex[*] $, v0, dist[*], prev[*]):; 
length path $ 32767; 
vcount-dim (dist); 
put "NOTE: 源 点 到 各 点 的 最 短 长 度 和 路 径 "; 
do i=v0+1 to vcount; 
path= vertex[ i ]; 
j=i; 
do while( prev[j]^=0); 
if prev[j]^=v0 then 


path-trim(left( vertex[ prev[j] ] )) || "-»" || 
trim(left (path)); 
j=prev[j]; 
end; 
path-trim(left( vertex[ v0 ] )) || "->" || trim(left (path)); 
put vertex[v0] "-> " vertex[i] ":" dist[i] 3." : " path ; 
end; 
return (0); 
endsub; 
run; 
quit; 


程序 17-7 是 Dijkstra 算法 的 测试 程序 ， 它 用 到 了 前 面 程序 17-2 中 图 的 二 元 组 数据 
结构 。 调 用 时 只 需要 初始 顶点 所 、 存 放 最 短 距离 的 数组 dist 和 存放 前 置顶 点 信息 的 数组 
prev 传 入 即 可 ， 计 算 结 果 如 图 17-10 所 示 。 


程序 17-7 Dijkstra 算 法 应 用 示例 
options cmplib=work.funcs; 
data null ; 
*$PrepGraph(); 
vO-1; /*iü: V0=1*/ 
array dist[9]; 
array prev[9]; 
rc-shortestPath Dijkstra(edge, v0, dist, prev); 
rc-printPath(vertex, v0, dist, prev); /* 打 印 最 短路 径 信息 */ 


run; 
ve -> V1: 1 : U8U1 
v8 -> v2: 4 : U8ÓU1U2 
ua -> U3 - 7 =: U8-U1-»U2-»Uh-»U3 
vO -> Uh: 5 : U0-»U1-»U2-^»U^ 
ve -> 05 : 8 : U9->U1->U2->UA->U5 
UU -> U6 : 10 : U0-U1-5U2-2U^-»U3-5U6 
U8 -> U7 : 12 : U8-U1-»U2-»Uh-»U3-»U6-5U7 
va -> U8 16 U8-»U1-»2U2-»U^-5U3-»U6-5U7-5U8 
Mort: “pata 语句 六 MRIN (HAEEREN) = 
实际 时 间 


et — dd — -— 


图 17-10 Dijkstra 算法 输出 


17.2.2 Bellman-Ford 算法 


贝尔 曼 - 福特 算法 CBellman-Ford Algorithm) 对 Dijkstra 算法 的 改进 之 处 是 它 能 够 
处 理 负 权 ， 也 就 是 边 的 权 值 可 以 是 负数 的 情况 。 它 不 再 使 用 贪心 算法 选取 尚未 处 理 的 具 
有 最 小 权 值 的 顶点 ， 而 是 简单 地 对 每 一 条 边 进行 松弛 操作 ， 总 共 需 要 松弛 操作 的 次 数 
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AERE -1 次 。 该 算法 与 Dijkstra 算法 在 深度 上 寻 路 不 同 ， 它 在 广度 上 进行 寻 路 
称 为 松弛 操作 。 也 就 是 说 一 开始 每 个 边 之 间 的 估计 值 都 比 真实 值 大 ， 而 后 通过 反复 计 
算 ， 得 到 正确 距离 的 边 数 不 断 增长 直到 所 有 的 边 都 得 到 了 正确 路 径 。 贝 尔 曼 - 福特 算 
法 需要 较 大 量 的 运算 ， 其 时 间 复杂 度 为 O(VE)， 实 践 中 可 使 用 基于 Bellman-Ford 算法 
的 改进 Shortest Path Faster Algorithm (SPFA) 算法 。 程 序 17-8 为 笔者 用 SAS 实现 的 
Bellman-Ford 算法 代码 ， 适 用 于 包含 负 权 的 单 源 最 短路 径 查找 。 


程序 17-8 Bellman-Ford 算 法 实现 ， 支 持 包含 负 权 的 单 源 最 短路 径 查找 
Proc fcmp outlib=work.funcs.graph; 
/* 最 短路 径 : BellmanFord 算法 ， 适 用 于 单 源 最 短路 径 ， 能 处 理 负 权 */ 
function shortestPath BellmanFord( edge[*,*], v0, dist[*], prev[*]); 
outargs dist; 
outargs prev; 


INFINITY-CONSTANT('BIG'); 

/* 初 始 化 */ 

vcount-dim(dist ); 

do i-1 to vcount; 
dist[i]-INFINITY; 
prev[i]-0; 

end; 

dist[v0]-0; 


/* 重 复 对 每 一 条 边 进行 松弛 操作 */ 
do k-1 to vcount-1; 
do i-1 to vcount; 
do j-1 to vcount; 
if edge[i,j]^-INFINITY then do; 
if dist[i]* edge[i,j] < dist[j] then do; 
dist[j]-dist[i]*edge[i,j]; 
prev[j]-i; 
end; 
end; 
end; 
end; 
end; 


/* 检 查 负 权 环 */ 
do i-1 to vcount; 
do j-1 to vcount; 
if  edge[i,j]^-INFINITY then do; 
if dist[i]* edge[i,j] « dist[j] then do; 
put "ERROR: 图 包含 了 负 权 环 !"; 
return(1); 
end; 
end; 
end; 
end; 


return (0); 
endsub; 
run; 
quit; 


只 需要 将 测试 程序 17-7 代码 中 的 shortestPath Dijkstra 改 为 shortestPath BellmanFord 
即 可 输出 从 某 个 项 点 出 发 的 所 有 最 短路 径 。 
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17.2.3 Floyd-Warshall 算法 


弗 洛 伊 德 算法 CFloyd-Warshall Algorithm). 是 任意 两 点 之 间 最 短路 径 的 计算 方法 ， 它 可 
以 处 理 负 权 和 有 向 图 , 但 它 也 不 能 处 理 包含 负 权 的 回路 。 该 算法 的 核心 思想 是 基于 动态 规划 。 

假定 D; ;为 从 顶点 i 到 j 的 只 以 (1, 2, …, 月 集合 中 的 顶点 为 中 间 节 点 的 最 短路 径 
长 度 。 如 果 最 短路 径 经 过 顶点 k, W D, jD rti 否则 最 短路 径 不 经 过 项 点 k 
则 有 Dij 志 Dij #4。 因此 有 Di;j -min(D;, kis DikerHDrirrD。 该 算法 的 时 间 复 杂 度 为 
OGV)， 空 间 复杂 度 为 ON’). 

程序 17-9 是 笔者 用 SAS 语言 实现 的 Floyd-Warshall 算法 ， 其 中 dist[ij] 表示 从 顶点 i 
到 顶点 j 的 距离 或 代价 ， 其 取 值 为 INFINITY 表示 两 顶点 之 间 没 有 通路 。 


程序 17-9 Floyd-Warshall 算 法 实现 
proc fcmp outlib-work.funcs.math; 
/* 最 短路 径 3: Floyd 算法 ， 任 一 对 项 点 间 的 最 短路 径 */ 
function shortestPath FloydWarshall( edge[*,*], dist[*,*], path[*,*] $); 
outargs dist; 
outargs path; 


vcount-dim(dist, 1); 


INFINITY-CONSTANT ('BIG'); 

/* 初 始 化 */ 

do i-1 to vcount; 
dist[i,i]-0; 

end; 


do i-1 to vcount; 
do j=1 to vcount; 
dist[i,j]-edge[i,jl:; 
if dist[i,j]^-INFINITY then path[i,j]-"V" || compress ((i-1) ||"—YV" || compress (j-1)); 
else path[i,j]-"*"; 
end; 
end; 


do k-1 to vcount; 
do i-1 to vcount; 
do j-1 to vcount; 
if dist[i,j]^-INFINITY & dist[i,k]^-INFINITY & 
dist[k,j]^-INFINITY then do; 
if dist[i,j] > dist[i,k]* dist[k,j] then do; 
dist[i,j]-dist[i,k] + dist[k,j]:; 
path[i,j]-trim(left( path[i,k])) || "" || trim(left( path[k,j] )); 
end; 
end; 
end; 
end; 
end; 
return(0); 
endsub; 
run; 
quit; 


由 于 该 算法 是 处 理 整个 图 所 有 项 点 之 间 的 最 短路 径 ， 其 输出 为 距离 矩阵 和 路 径 矩 阵 ， 
此 ， 需 要 定义 两 个 专门 用 于 输出 距离 和 路 径 的 函数 print dist 和 print path〈 见 程序 17-10) o 
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程序 17-10 ”输出 距离 矩阵 和 路 径 矩 阵 的 辅助 函数 
proc fcmp outlib-work.funcs.math; 
function print dist( dist[*,*]); 
length line $ 32767; 
vcount-dim(dist, 1); 


do i-1 to vcount; 
line-""; 
do j-1 to vcount; 
if j»1 then line- trim(line) 


if dist[i,j]-CONSTANT('BIG') then do; 
line- trim(line) || "*"; 
end; 
else do; 
line- trim(line) || trim(left( put(dist[i,j],4.0) )):; 
end; 
end; 
put line; 
end; 
return(0); 
endsub; 


function print path( path[*,*] $); 
length line $ 32767; 
vcount-dim(path, 1); 


do i-1 to vcount; 
line-""; 
do j=1 to vcount; 
if j»1 then line- trim(line) || ","; 
line- trim(line) || put(path[i,j], $6.); 
end; 
put line; 
end; 
return(0); 
endsub; 
run; 
quit; 


程序 17-11 演示 了 如 何 用 Floyd-Warshall 算法 对 前 面 的 数据 进行 计算 ， 结 果 如 图 
17-11 所 示 。 纵 坐标 / 横 坐 标 分 别 反 映 源 点 到 目标 点 之 间 的 最 短路 径 ， 以 及 源 点 到 目标 
点 的 路 径 信息 。 比 如 ， 第 1 行 第 3 列 为 4， 表示 图 中 顶点 V 到 到 的 最 短路 径 为 4, 其 路 
径 序列 为 VV, Vos 

程序 17-11 Floyd-Warshall 算法 应 用 示例 


data null ; 
SPrepGraph () ; 


array dist[9,9]; 


array path[9,9] $ 32767; 
rc=shortestPath_FloydWarshall (edge, dist, path); 


put "NOTE: 源 点 到 各 点 的 最 短路 径 长 度 "; 
rc=print dist (dist); 


put "NOTE: 源 点 到 各 点 的 最 短路 径 "; 
rc=print path (path); 
run; 


第 17 章 数据 结构 一 图 


到 各 点 点 | 的 最 短路 径 长 度 


E. 


QE EUER P 


->U4 Uh-»U2 U2-2U1,*,U3-203,U3-2UA ,*,U3-5U6 ,= 
2 U2-5U1,UA-5U2 ,Uh-»U3 ,UA-5UA ,UA-5US ,Uh-5U3 ua- >Uő,U}->U3 U3-»U6 Uó->U7,* 


17-11 Floyd-Warshall 算法 输出 


本 章 主要 讲述 了 图 的 基本 知识 ， 包 括 两 类 遍历 算法 和 三 种 最 短路 径 算 法 。 读 者 可 
以 参考 笔者 的 SAS 代码 实现 去 开发 用 到 图 这 种 数据 结构 的 分 析 应 用 。 比 如 ， 在 社交 网 
络 分 析 和 链接 分 析 中 ， 图 就 是 一 种 最 基本 的 常用 数据 表达 形式 。 

SAS 对 图 论 、 组 合 优化 和 网 络 分 析 等 领域 提供 专业 的 分 析 包 SAS/OR 需要 专门 


的 软件 授权 》， 


它 可 对 实体 (也 叫 顶点 或 节点 ) 之 间 的 关系 〈 也 叫 边 或 联接 ) 进行 各 


种 分 析 。 其 中 PROC OPTNET 和 PROC OPTGRAPH 分 别 支持 11 种 和 17 种 算法 ; 用 
户 也 可 使 用 PROC OPTMODEL 网 络 求解 器 进行 网 络 分 析 。SAS 过 程 步 可 使 数据 分 析 
人 员 专 注 于 数据 准备 和 结果 解读 ， 而 不 是 具体 算法 实现 。 程 序 17-12 演示 了 如 何 使 用 
SAS/OR 进行 最 短路 径 分 析 ， 指 定 起 点 和 终点 的 最 短路 径 输出 与 前 面 Dijkstra 算法 输出 
相同 〈 见 图 17-12) 。 


程序 17-12 SAS/OR 最 短路 径 分 析 示 例 代码 


/* 构造 数据 集 : from 起 点 to 终点 weight 权重 */ 


data mygraph; 
input from $ to $ weight @@; 


datalines; 
v0 vl 1 v0 v2 5 
vl v2 3 vl v3 7 vl v4 5 
v2 v4 1 v2 v5 7 
v3 v4 2 v3 v6 3 
v4 v5 3 v4 v6 6 
v5 v7 5 
v6 v7 2 v6 v8 7 
v] v8 4 
/* 1. 指定 起 点 和 终点 的 最 短路 径 */ 


Proc optgraph data links=mygraph; 
shortpath out paths=mypath source-" v0" 


run; 


proc print data-mypath; 


P 


2 .处 理 包 含 负 权 时 的 最 短路 径 */ 


Proc optgraph data links=mygraph direction = directed; 
sink-" v8" ; 


shortpath out paths-mypath source-" v0" 


run; 


sink-" v8" ; 
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/* 3。 寻 找 所 有 节点 之 间 的 最 短路 径 */ 

proc optgraph data links-mygraph; 
shortpath out paths = shortpath paths; 

run; 


Obs source sink order from to weight 


1 v0 v8 1 v0 vi 1 
2 vo va 2 vi v2 3 
3 vo v8 3v2 v4 1 
4 vo v8 4 v4 v3 2 
5 v0 va 5 v3 v6 3 
6 vo v8 6 v6 V7 2 
7ivo va 7 Vv7 va 4 


图 17-12 SAS/OR 最 短路 径 分 析 示 例 输出 


掌握 了 SAS 语言 以 及 利用 它 去 开发 数据 结构 和 算法 的 基础 后 ， 我 们 就 掌握 了 用 
SAS 语言 开发 各 种 分 析 应 用 的 编程 技术 。 然 而 这 一 切 还 只 能 让 我 们 停留 在 程序 员 的 层次 
上 。 作 为 数据 科学 家 ， 还 需要 掌握 作为 数据 分 析 基 础 的 统计 学 知识 和 数学 知识 ， 尤 其 是 
统计 学 有 关 的 各 种 定律 和 定理 ， 从 基本 的 数据 统计 量 和 统计 分 布 出 发 ， 掌 握 单 变量 数据 
分 析 技术 ， 各 种 多 变量 数值 分 析 方法 ， 融 会 贯通 数据 分 析 的 各 种 手段 ， 最 后 才能 “系统 
化 ”地 掌握 数据 分 析 的 精 茵 和 终极 目标 : 基于 历史 数据 构建 有 用 的 分 析 模型 并 从 中 获得 
洞 见 ， 实 现 对 未 知 数据 的 分 类 和 预测 ， 从 而 获得 DIKW 模型 中 能 够 改变 未 来 的 所 谓 准则 

(Principal) , 3&3] “智慧 ”之 级 别 。 从 分 析 的 角度 看 ， 智 慧 是 能 够 更 好 面 对 “ 持 续 变 
化 且 充满 不 确定 性 ”的 未 来 ， 指 导 当 下 行动 以 塑造 尚未 发 生 的 未 来 ， 获 取 最 优 预 期 的 
终极 知识 。 


统计 学 基础 


统计 学 是 使 用 科学 方法 收集 、 分 析 、 呈 现 和 解释 数据 的 科学 ， 它 是 数据 分 析 科 学 的 
基础 ， 主 要 由 描述 性 统计 和 推断 性 统计 构成 。 描 述 性 统计 是 一 大 类 统计 的 总 称 ， 主 要 是 
用 于 描述 或 总 结 所 观察 到 数据 的 基本 情况 ， 目 的 是 获得 对 数据 的 总 体感 觉 以 及 评估 数据 
质量 。 它 的 主要 手段 包括 两 大 类 : 四 用 数据 特征 度量 来 反映 数据 的 集中 趋势 、 离 散 趋势 、 
分 布 形状 ; @@ 用 表格 工具 或 图 形 化 方法 来 了 解 样本 数据 总 体 分 布 情况 。 

CD 前 者 运用 的 工具 是 反映 数据 特征 的 数字 工具 ， 包 括 均值 、 众 数 、 中 位 数 ， 四 
分 位 数 、 百 分 位 数 、 方 差 、 标 准 差 、 变 异 系数 等 反映 数据 集中 和 离散 程度 的 一 系列 特征 
度量 。 对 于 某 个 随机 变量 ， 由 于 观测 到 的 变量 数据 受到 诸多 因素 影响 ， 当 其 中 任何 一 个 
因素 都 不 起 决定 性 作用 时 ， 其 观测 值 会 服从 或 近似 服从 正 态 分 布 ， 为 衡量 观测 到 的 数据 
与 正 态 分 布 的 偏离 情况 ， 统 计 学 中 还 引入 偏 度 系数 和 峰 度 系数 两 个 基础 统计 量 。 

COD 后 者 采用 表格 工具 或 图 形 化 方法 来 了 解数 据 的 总 体 分 布 情况 , 包括 频数 分 布 表 、 
直方 图 、 饼 图 、 散 点 图 、 盒 形 图 等 各 种 数据 可 视 化 手段 。 直 方 图 是 为 了 解 在 特定 取 值 区 
间 上 ， 观 测 值 出 现 的 频次 而 引入 的 图 形 工具 ; 盒 形 图 则 可 以 直观 地 反映 四 分 位 数 和 中 
位 数 ， 最 小 值 和 最 大 值 以 及 离 群 值 的 分 布 情 况 ， 为 了 解数 据 的 分 布 特征 提供 很 好 的 直 
观 工具 。 


18.1 数据 特征 度量 


人 类 认识 事物 是 通过 事物 的 不 同属 性 或 特征 去 认识 的 , 根据 不 同方 面 的 属性 和 特征 ， 
人 们 会 建立 不 同 的 指标 去 观测 它 ， 来 获得 描述 事物 的 数据 。 数 据 分 析 的 对 象 为 多 次 观测 
事物 所 得 到 的 指标 数据 ， 而 分 析 数据 的 终极 目的 是 了 解 事物 本 身 。 在 一 次 观测 中 得 到 的 
数据 可 能 因为 随机 误差 或 者 其 他 原因 而 不 能 很 好 地 反映 事物 本 身 ， 因 此 人 们 通过 反复 观 
测 来 获得 更 全 面 的 认识 。 然 而 ， 再 多 次 数 的 观测 也 不 能 代表 事物 本 身 ， 也 就 是 说 人 类 不 
能 获得 观测 对 象 所 有 可 能 的 全 面 认识 。 因 此 ， 就 需要 对 有 限 的 观测 数据 进行 分 析 ， 用 科 
学 方法 推断 总 体 的 情况 ， 尽 可 能 从 有 限 数据 中 获得 对 事物 的 确定 性 认识 。 

在 统计 学 上 ， 待 研究 的 对 象 的 全 体 称 为 总 体 (Population) ， 而 从 总 体 中 抽取 的 一 部 
分 个 体 组 成 的 集合 称 为 样本 (Sample), 样本 中 每 一 个 待考 察 的 对 象 称 为 个 体 (Individual)， 
而 样本 中 个 体 的 数目 称 为 样本 容量 。 假 如 图 18-1 中 所 有 的 点 就 是 我 们 需要 认识 的 事物 ， 
称 为 总 体 ， 每 一 个 小 方 框 内 的 点 组 成 的 集合 就 是 一 个 样本 ， 而 每 一 个 点 就 对 应 一 个 个 体 。 
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18-1 总体、 样本 与 个 体 


用 于 描述 事物 特征 或 属性 的 单个 变量 x*， 假 定 通过 次 观测 获得 了 n 个 观测 结果 
Xp Xe cr ox 则 这 个 观测 值 就 构成 我 们 待 研究 的 样本 ， 其 中 称 为 样本 容量 。 为 多 
方面 观察 事物 ， 我 们 一 般 会 从 多 个 角度 来 观察 ， 因 此 我 们 在 单 次 观测 中 就 可 以 得 到 多 个 
变量 的 观测 值 。 如 果 将 观测 到 的 数据 用 一 个 表格 进行 表示 ， 则 表格 中 每 一 行 数据 就 对 应 
统计 学 上 的 一 次 观测 的 结果 ， 表 格 中 的 每 一 行 在 统计 学 上 被 称 之 为 观测 〈Observation) ， 
而 表格 中 每 一 列 数据 则 代表 一 个 观测 指标 ， 称 为 变量 (Variable) 。 

对 单个 变量 的 数据 进行 分 析 时 ， 需 要 了 解 其 数据 取 值 的 特征 ， 包 括 数据 的 集中 趋势 、 
离散 趋势 和 分 布 形 状 等 信息 。 比 如 ， 扔 一 个 角 子 获得 点 数 ， 每 一 次 都 能 够 获得 6 个 面 中 
的 一 个 ， 因 此 可 能 的 取 值 就 是 1~-6， 共 6 种 情况 ， 如 果 把 抛 散 子 观测 出 现 的 点 数 当 作 一 
次 试验 ， 则 该 随机 试验 的 样本 空间 为 {1,2,3,4,5,.6}。 现 在 假如 张 三 抛 了 3 KEF KT 3 
次 随机 试验 ) ， 获 得 了 一 个 样本 为 {1,5,3}; 李 四 抛 了 5 KEF KT S 次 随机 试验 ) ， 
获得 了 另 一 个 样本 为 {2.3.1.4.5}。 现 在 我 们 要 研究 抛 骨 子 出 现 点 数 的 规律 ， 而 我 们 又 不 
可 能 做 无 限 次 试验 ， 这 就 要 求 我 们 从 这 些 有 限 样本 数据 中 建立 对 抛 般 子 出 现 点 数 规律 的 
“总 体 ” 的 认识 。 

为 了 衡量 样本 数据 的 特征 ， 在 统计 学 上 构造 了 一 系列 描述 数据 特征 的 概括 值 ， 称 为 
样本 统计 量 (Statistics) 。 一 般 以 拉丁 字母 表示 , 如 样本 均值 <、 样本 方差 8 等 。 很 多 时 候 ， 
样本 统计 量 被 简称 为 统计 量 ， 它 是 基于 样本 数据 计算 得 到 的 。 下 一 小 节 将 对 各 种 样本 统 
计量 进行 展开 阐述 。 

然而 ， 为 了 区 分 样本 的 数据 特征 与 总 体 的 数据 特征 ， 我 们 把 描述 总 体 特征 ， 与 样本 
统计 量 对 应 的 概括 值 称 为 总 体 参 数 (Parameter), 常 被 简称 为 参数 , 一 般 用 希腊 字母 表示 。 
比如 ， 总 体 均值 人 、 总 体 方差 r 等 ， 总 体 均 值 又 称 为 期 望 (Expectation) 。 总 体 参数 通 
常 是 未 知 数 ， 由 于 我 们 不 可 能 够 获得 “所 有 样本 ” 进行 计算 ， 因 此 需要 科学 方法 来 对 
有 限 样本 数据 进行 计算 ， 并 估计 总 体 参数 。 


SAS 技 术 内 幕 ， 从 程序 员 到 数据 科学 家 


18.1.1 集中 趋势 度量 


(1) 均 值 (Mean, 也 称 算术 平均 值 ) 是 样本 中 个 观测 值 x, x» t xz， 的 算术 平均 值 ， 
它 反映 样本 观测 值 的 总 和 均匀 分 配 在 每 个 个 体 上 的 多 少 。 其 计算 公式 为 观测 数据 的 总 和 
除 以 样本 容量 : 


R-LYx 

均值 表示 数据 集中 的 趋势 ， 均 值 越 大 ， 表 示 数 据 普遍 取 值 较 大 ， 也 就 说 数据 有 
在 取 值 较 大 区 域 集中 的 趋势 。 均 值 代表 了 观测 的 平均 水 平 ， 是 数据 取 值 的 中 心 位 置 。 

然而 均值 这 一 统计 量 容易 受 极端 个 体 的 影响 而 掩盖 问题 ， 也 就 是 说 大 多 数 个 体 很 容 
易 “ 被 平均 ”。 当 数据 分 布 并 非 正 态 分 布 时 ， 均 值 不 太 适 合作 为 数据 集中 趋势 的 度量 。 
严谨 的 统计 学 方法 需要 客观 看 待 每 一 个 样本 统计 量 优 缺点 ， 合 理 理解 各 统计 量 的 描述 价 
值 。 有 打油诗 为 证 : 张 村 有 个 张 千 万 ， 隔 壁 九 个 穷 光 蛋 ， 平 均 起 来 算 一 算 ， 人 人 都 是 张 
百 万 。 然 而 理性 告诉 我 们 ，“ 人 人 都 是 张 百 万 ” 的 说 法 对 于 张 村 大 部 分 穷 光 蛋 们 而 言 是 
EADEM 

另外 ， 除 了 前 面 最 常用 的 算术 平均 值 ， 还 有 一 些 别 的 形式 的 平均 值 ， 可 分 别 用 于 不 
同 的 计算 场景 。 下 面 列 出 了 各 种 形式 的 平均 值 计算 公式 以 及 它们 的 加 权 形 式 : 


WX, 


1^4 


e ARPE: Aou onem un). HEOXeEUE AUR =E 
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e 几何 平均 值 : G-4ITax 7x2, . 
w, 

e 调和 平均 值 : H=- =, AARAA 
1 Lo | & V, 
= Ras) : 
ia X X 为 3 H$ 
e 平方 平均 值 : M= ex Lx ex een) 


T— ác —X——O 

以 用 描述 样本 数据 的 集中 程度 。 其 数学 表达 形式 为 
Mode=x; if Freq (xj) = max 

众 数 代表 观测 值 的 一 般 水 平 ， 就 是 最 常 出 现 的 那个 观测 值 。 统 计 学 上 样本 的 众 数 
可 以 有 1 个 或 多 个 ， 也 可 以 没有 。 当 所 有 的 观测 值 出 现 次 数 一 样 多 时 ， 众 数 就 不 存在 。 
而 当 样 本 中 观测 值 出 现 次 数 并 列 最 多 时 , 则 这 些 观测 值 并 列 为 众 数 , 这 时 众 数 就 有 多 个 。 

由 于 众 数 是 统计 数据 出 现 的 次 数 ， 而 跟 数 据 本 身 的 类 型 和 取 值 大 小 无 关 ， 因 此 众 数 
在 无 法 计算 均值 时 非常 有 用 ， 如 待 分 析 的 数据 只 有 定性 信息 ， 它 只 包含 描述 性 信息 或 者 
顺序 性 信息 。 

众 数 在 统计 分 布 曲线 中 是 概率 密度 函数 峰值 所 对 应 的 横 坐 标 x 值 ， 也 是 频数 分 布 直方 
图 中 最 高 的 那个 柱子 对 应 的 横 坐 标 x 值 。 众 数 的 好 处 是 不 受 极端 值 ( 极 大 或 极 小 ) 的 影响 。 
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比如 ， 前 面 张 村 人 民 富 裕 程 度 的 描述 就 变 为 : 张 村 有 个 张 千 万 ， 隔 壁 九 个 穷 光 蛋 ， 若 按 多 
数 算 一 算 ， 大 家 都 是 穷 光 蛋 。 不 管 如 何 ， 张 村 人 民 大 多 数 人 确实 是 穷 光 蛋 ， 这 种 认识 还 
是 比 “ 人 人 都 是 张 百 万 ” 更 加 准确 的 。 由 此 看 来 ， 众 数 的 确 能 较 好 地 反映 数据 的 集中 趋 
势 ， 但 另外 由 于 众 数 的 大 小 只 跟 经 常 出 现 的 那 部 分 数据 有 关 ， 它 仍然 有 以 偏 概 全 的 风险 。 
G) 中 位 数 (Median) : 既然 均值 和 众 数 都 各 有 优 缺 点 ， 那 么 是 否 有 更 好 反映 数 
据 集中 程度 的 特征 度量 呢 ? 如 果 我 们 将 样本 数据 按照 数值 大 小 顺序 排列 ， 取 位 于 最 中 
间 的 那个 数 或 者 最 中 间 那 两 个 数 的 平均 值 ， 是 否 它 应 该 比 平均 值 和 众 数 在 反映 数据 
集中 趋势 上 更 加 优越 ? 统计 学 上 这 个 数 被 称 为 中 位 数 ， 就 是 中 间 位 置 的 那个 数 。 中 位 
数 能 确保 大 于 它 和 小 于 它 的 样本 个 数 是 一 样 多 的 ， 故 又 称 中 值 。 
它 的 数学 表达 形式 为 
Median=xosoo 当 n 为 奇数 
Median-(x,54x,54)/2. H n Jg 
即 当 样本 容量 n 为 奇数 ， 中 位 数 为 位 于 最 中 间 的 那个 数值 ， 即 排序 后 位 于 第 (n+1)/2 
个 样本 的 值 ， 否 则 中 位 数 为 第 w2 个 与 第 nm/2+1 个 样本 之 和 的 平均 值 。 由 于 中 位 数 是 计 
算 所 得 ， 中 位 数 可 能 是 样本 中 一 个 实际 存在 的 样本 值 ， 也 可 能 是 样本 中 根本 不 存在 的 一 
个 数值 。 中 位 数 代表 数据 总 体 的 中 间 水 平 ， 在 统计 分 布 曲线 中 它 对 应 的 x 值 刚 好 将 概率 
密度 曲线 下 方 的 面积 分 成 左右 相等 的 两 部 分 ( 见 图 18-2) 。 


50% 


x 


图 18-2 ”统计 分 布 曲线 与 中 位 数 


中 位 数 既 降 低 了 均值 引发 的 “被 平均 ”风险 ， 又 减少 了 众 数 以 偏 概 全 的 风险 。 极 端 
值 和 部 分 数据 的 改变 对 中 位 数 没 有 影响 ， 该 样本 统计 量具 有 较 强 的 稳健 性 。 正 如 打油诗 
Bri: 张 村 有 个 张 千 万 ， 隔 壁 九 个 穷 光 蛋 ， 若 按 中 间 算 一 算 ， 最 坦然 是 穷 光 蛋 。 中 位 数 
可 保证 比 它 大 和 比 它 小 的 观测 个 数 是 一 样 多 的 ， 也 就 说 比 中 位 数 富裕 的 和 比 它 穷困 的 各 
占 一 半 ， 因 此 中 位 数 收入 的 人 会 因为 比 上 不 足 比 下 有 余 而 更 加 坦然 。 

从 中 位 数 往 更 一 般 地 推论 ， 统 计 学 上 引入 四 分 位 数 CQuartile) 和 百 分 位 数 
(Percentile) 等 统计 量 用 于 描述 数据 分 布 的 位 置 。 其 中 四 分 位 数 是 将 观测 值 从 小 往 大 
排列 ， 然 后 将 出 现 的 频数 划分 为 4 个 相等 的 部 分 ， 则 从 小 到 大 排列 占 比 为 25% 所 对 应 
的 变量 值 称 为 下 四 分 位 数 O,，50% 为 中 四 分 位 数 O,〈 即 中 位 数 ) ，75% 为 上 四 分 位 
数 OQ. 而 O, 就 是 最 大 值 〈 见 图 18-3) 。 概 率 分 布 曲线 下 方 的 面积 ， 就 是 观测 值 的 数据 
出 现 的 概率 ， 最 左 侧 占 总 体面 积 25% 所 对 应 的 数值 就 是 1/4 分 位 数 O,、3/4 分 位 数 为 
左 侧 7596 面积 右 侧 边界 所 对 应 的 分 位 数 2;， 中 位 数 2, 就 是 将 曲线 下 方面 积分 为 左右 
均等 的 那个 x 值 。 
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Q Qao Q 

第 25 个 中 位 数 第 75 个 
百 分 位 数 百 分 位 数 
图 18-3 ”分布 相 关 的 四 分 位 数 


更 一 般 地 ， 可 以 构造 出 一 系列 的 百 分 位 数 ， 常 用 的 为 两 端 占 比 为 1%、5% 和 1096 
的 那 几 个 百 分 位 数 ， 分 别 记 为 百 分 位 数 PL、P;、Plo、Pw、Pys、Poo。( 见 图 18-4) 。 


g 


P, P, Pio Q, Q: Q; Poo Pos Poo 
图 18-4 ”四 分 位 数 与 百 分 位 数 


实践 中 百 分 位 数 的 计算 方法 比 中 位 数 复杂 。 主 要 有 如 下 两 种 计算 方式 ， 其 中 方法 2 
是 SAS 等 专业 统计 软件 内 部 使 用 的 百 分 位 数 计算 方法 ， 更 加 精确 一 点 。 假 如 计算 第 25% 
百 分 位 数 ， 则 下 文中 的 p 值 为 0.25。 

方法 1: 首先 需要 将 n 个 观测 值 从 小 到 大 排列 ， 假 定 x 为 排序 后 第 j 个 数 ， 计 算数 
值 4=nXp， 把 4 的 整数 部 分 记 为 i， 小 数 部 分 记 为 /。 如 果 4 刚好 是 整数 ， 则 第 p 百 分 
位 数 为 Gitxin)/2， 否 则 为 Xiro 

方法 2: 首先 需要 将 个 观测 值 从 小 到 大 排列 ， 假 定 o; 为 排序 后 第 7 个 数 ， 计 算数 
值 4=(n+1)Xp， 把 4 整数 部 分 记 为 i， 小 数 部 分 记 为 f。 如 果 4 刚好 是 整数 ， 则 第 p 百 
分 位 数 为 xo BWA A-S) Xxitf Xxin。 


18.1.2 ”离散 趋势 度量 


为 衡量 数据 的 离散 程度 ， 统 计 学 中 引入 极 差 、 半 极 差 、 方 差 、 变 异 系数 、 离 差 平方 
和 等 样本 统计 量 ， 描 述 样本 数据 在 分 布 空间 上 的 离散 程度 。 
(1) RÆ (Range) 就 是 样本 数据 在 分 布 空间 上 的 跨度 。 最 小 观测 值 min) 和 最 
大 观测 值 Cmax) 分 别 代表 样本 中 两 个 方向 的 极端 情况 ， 而 它们 相 减 的 差 就 可 表示 观测 
数据 的 波动 范围 ， 所 以 极 差 又 称 全 距 。 其 数学 表达 形式 为 
Range-max(x)-min(x;) 


同 理 ， 也 可 以 定义 上 下 四 分 位 数 的 差 ， 称 为 半 极 差 (Interquartile Range, QRANGE) , 
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也 称 四 分 位 极 差 或 四 分 位 间距 。 半 极 差 衡量 的 是 中 间 50% 观测 值 的 波动 范围 。 其 数学 表达 


形式 为 
QRANGE-Q;-Q, 


极 差 由 于 不 同 观测 数据 的 单位 不 同 ， 因 而 不 能 用 来 比较 两 个 不 同样 本 。 它 只 能 粗略 
反映 数据 离散 的 程度 ， 而 不 能 反映 数据 的 分 布 情况 。 极 差 对 极端 值 极其 敏感 ， 因 为 只 用 
两 个 极端 的 数据 来 衡量 整 组 数据 是 不 太 科学 的 。 为 了 能 够 比较 不 同样 本 的 离散 程度 ， 需 
要 进一步 引入 能 够 用 于 比较 不 同样 本 ， 衡 量 数据 离散 程度 的 度量 。 

(2) 方差 (Variance， VAR) 就 是 样本 中 每 个 观测 值 x; 与 样本 算术 平均 值 x 之 偏差 
的 平方 和 ， 再 除 以 样本 容量 减 1。 其 数学 表达 形式 为 

=) 
m 

样本 方差 是 描述 数据 取 值 分 散 程度 的 一 个 度量 ， 它 基于 数据 相对 于 平均 值 的 偏离 程 
度 的 平方 和 。 其 中 样本 方差 计算 公式 中 的 分 母 n-1 称 为 “样本 自由 度 ”， 其 取 值 不 是 样 
本 容量 n 是 为 了 使 样本 方差 是 总 体 方差 o 的 无 偏 估计 。 当 数据 是 “总 体 ” 数 据 而 不 
是 样本 数据 时 ， 该 自由 度 为 n; 当 数 据 为 “样本 ”数据 时 ， 该 自由 度 应 该 是 n-1。 

在 统计 学 中 自由 度 (Degree of Freedom). 是 指 计 算 某 统计 量 时 ， 取 值 不 受 限制 的 变 
量 个 数 。 通 常 自由 度 4f=n-k， 其 中 为 样本 容量 ,为 限制 条 件 的 数目 。 对 于 单个 变量 
(k=1) 的 样本 数据 ， 样 本 自由 度 4f=n-k=n-1， 故 而 方差 公式 中 为 n-1， 而 计算 总 体 方 
差 时 则 是 除 以 mw。 比如 ， 某 样本 数据 为 1,2,3,4， 样 本 容量 为 4， 样 本 均值 为 2.5， 则 样本 
受到 总 体 均值 x=2.5 的 约束 。 此 时 当 样 本 中 个 体 1.2.3 一 旦 确定 后 ， 第 4 个 值 只 能 是 4， 否 
则 就 不 符合 总 体 均值 取 值 的 约束 ， 这 就 是 为 什么 样本 自由 度 取 值 4f=n-k=4-1=3 的 原因 。 

思考 : 如 何在 计算 机 编程 时 仅 遍 历 样 本 数据 一 次 就 计算 出 样本 方差 ? 


an 


à miss; fm Y 
5 ES -GJ 

(3) 标准 差 (Standard Deviation, SD) 为 样本 方差 S 的 开 方 ， 又 称 为 均 方差 或 样本 
标准 差 。 其 数学 表达 形式 如 下 : 

SNS 对 于 总 体 则 用 o=Va? 表示。 

由 于 方差 包含 样本 观测 数值 的 平方 ， 它 的 取 值 与 数据 本 身 因 平方 后 相差 太 大 ， 导 致 
我 们 难以 直观 衡量 数值 的 变异 ， 因 此 需要 引入 样本 标准 差 的 概念 。 样 本 标准 差 能 客观 准 
确 地 反映 样本 数据 的 离散 程度 ， 在 样本 标准 差 几 何 上 就 是 n 维 空间 中 的 若干 数据 点 去 中 
心 化 后 到 一 条 直线 的 距离 函数 ， 称 为 二 阶 中 心 矩阵 。 

对 于 服从 正 态 分 布 的 数据 ， 标 准 差 在 钟 形 曲线 中 对 数据 的 分 布 具有 非常 重要 的 指 
示意 义 。 如 图 18-5 所 示 中 间 深 色 的 两 部 分 ， 它 表示 距离 均值 正 负 1 个 单位 c 内 的 概 
率 ， 即 曲线 下 方 的 面积 占 总 体 概率 1 的 68.2%; ”而 距离 1 正 负 2 个 单位 o 内 的 概率 为 
95.4%， 而 +30 则 为 99.7%， 这 3 个 特殊 的 概率 值 合 称 68-95-99.7 准则 或 3c 准则， 西 


即 


SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


格 玛 准则 在 质量 控制 方面 具有 重要 而 广泛 的 意义 。 
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0.1 


0.0 


-309 “20 “ls u lo 2c 3c 
图 18-5 正 态 分 布 的 30 准则 


标准 误差 (Standard Error，SE) 也 称 标准 误 ， 与 标准 差 概念 不 同 。 由 于 总 体 可 以 抽 
样 出 多 个 样本 ， 而 基于 样本 计算 的 统计 量 都 是 对 总 体 数据 的 估计 和 反映 ， 因 此 单个 样本 
对 总 体 数据 的 估计 就 存在 误差 ， 这 种 误差 被 称 为 抽样 误差 。 而 样本 统计 量 本 身 的 标准 差 
称 为 标准 误差 ， 是 描述 样本 统计 量 抽样 分 布 的 离散 程度 和 误差 大 小 的 尺度 。 

比如 ， 样 本 均值 * 这 一 统计 量 ， 尽 管 它 是 总 体 均 值 4 的 无 偏 估计 《Unbiased 
Estimates) ， 但 对 一 个 总 体 的 多 次 抽样 〈 每 次 样本 大 小 都 是 z) 时 ， 则 每 个 样本 都 有 自己 
的 均值 x;( 第 i 次 抽样 计算 出 的 均值 )， 这 些 平均 值 x; 的 标准 差 就 是 样本 均值 x 的 标准 误 
差 (Standard Error of the Mean, SEM) 。 样 本 容量 n 越 大 ， 样 本 统计 量 的 标准 误差 SE 就 
越 小 ， 表 示 抽 取样 本 越 多 ， 统 计量 能 够 反映 总 体 的 特征 越 好 。 样 本 均值 * 的 标准 误差 为 

SEM=o/V7 

它 等 于 标准 差 除 以 样本 容量 n 的 开平 方 。 

注意 标准 差 是 单 次 抽样 计算 所 得 ， 但 用 单 次 抽样 得 到 的 样本 标准 差 S$， 可 以 估计 多 
次 抽样 才能 估计 总 体 的 标准 误差 o。 也 就 是 说 , 样本 标准 差 反 映 的 是 数据 点 的 波动 情况 ， 
而 标准 误差 SE 反映 的 是 统计 量 均值 的 波动 情况 。 只 要 样本 总 量 趋 向 于 无 穷 大 ， 统 计 学 
的 中 心 极限 定理 (Central Limit Theorem). 可 以 保证 其 样本 标准 误差 的 样本 分 布 渐进 趋向 
于 正 态 分 布 。 

对 于 一 个 正 态 分 布 的 总 体 来 说 ， 用 样本 均值 估计 总 体 均值 需要 考虑 样本 均值 的 方差 
或 标准 差 ， 其 数学 表达 形式 为 


e pinra D(X) DUO ， 即 样本 方差 5 除 以 n。 
n 


e 样本 均值 的 标准 关 sp 侣 -J 可 -对 名 ， 即 样本 标准 差 S 除 以 Vi o 


(4) 变异 系数 (Coefficient of Variation) 定义 为 样本 方差 除 以 样本 均值 ， 它 是 一 个 
消除 了 量 纲 的 可 比较 不 同样 本 的 系数 。 其 数学 表达 形式 为 
Cv - $1009 
s 


总 体 记 为 CV = 全 x100% 
u 


标准 差 8 固然 能 衡量 数据 的 分 散 程度 ， 但 由 于 不 同 数据 的 数值 大 小 和 单位 不 同 ， 它 
们 之 间 就 没有 可 比 性 。 因 此 我 们 需要 将 标准 差 除 以 样本 均值 三 来 消除 量 纲 的 影响 ， 这 就 


第 18 章 统计 学 基础 


是 需要 变异 系数 CV 的 根本 原因 。 

比如 ， 我 们 要 对 比 中 国 股市 和 美国 股市 的 稳定 性 ， 美 国 股市 上 万 点 ， 而 中 国 股市 才 
3000 点 ， 美 国 股市 波动 100 点 跟 中 国 股市 波动 100 点 是 完全 不 同 的 ， 对 于 这 种 情况 ， 我 
们 就 需要 使 用 指数 样本 的 变异 系数 CV 进行 比较 ， 才 能 客观 评价 两 个 市 场 的 波动 性 或 稳 
定性 的 异同 。 


18.1.3 ”分 布 特征 度量 


衡量 样本 数据 分 布 特征 主要 包括 数据 分 布 的 对 称 性 、 分 布 曲线 在 中 间 聚 集 的 陡 缓 程 
度 两 个 方面 ， 分 别 用 偏 度 系数 和 峰 度 系数 衡量 。 
A) MEE (Skewness) 用 于 衡量 数据 分 布 的 对 称 性 ， 其 数学 计算 公式 为 


le EX 
2 Pd) 2 3 


"(n-0)(n-2) >  (n-y-2)65 


其 中 心 = D -FP A 3 阶 中 心 矩 ， 即 所 有 观测 值 与 均值 偏差 的 三 次 方 总 和 的 


IE, o^ 则 为 标准 差 的 立方 ， 对 于 样本 数据 则 使 用 样本 标准 差 5 进行 计算 。 为 了 确保 样 
本 的 偏 度 系 数 是 总 体 偏 度 的 无 偏 估 计 ， 其 前 置 系 数 为 (po-1)(z-2)。 
若 以 正 态 分 布 为 基准 ， 如 果 样 本 数据 计算 出 来 的 偏 度 不 为 零 ， 则 说 明 数 据 分 布 是 有 
偏向 性 的 。 由 于 中 位 数 永 远 是 将 样本 容量 分 成 相等 的 两 半 ， 如 果 平 均值 与 中 位 数 相等 表 
示 没 有 偏向 性 ， 而 均值 偏离 中 位 数 则 会 导致 数据 分 布 的 不 对 称 性 〈 见 图 18-6) 。 
e 偏 度 为 负 表示 左 偏 ( 左 拖 尾 ) ， 即 左 侧 有 更 多 的 分 散 数据 ， 此 时 在 分 布 图 上 表现 
为 算术 平均 数 < 中 位 数 < 众 数 的 特征 ， 均 值 在 中 位 数 的 左 侧 ( 见 图 18-6 左 ) 。 

e 偏 度 为 零 表示 对 称 分 布 ， 此 时 在 分 布 图 上 有 众 数 一 中 位 数 一 平 均 数 ，3 个 统计 量 
对 应 的 观测 值 x 重 合 ( 见 图 18-6 中 ) 。 

e 偏 度 为 正 表示 右 偏 ( 右 拖 尾 ) ， 即 右 侧 具 有 更 多 分 散 的 数据 ， 此 时 分 布 图 上 呈 
现 众 数 < 中 位 数 < 算术 平均 数 的 特征 ， 均 值 在 中 位 数 的 右 侧 ( 见 图 18-6 右 ) 。 
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思考 : 如 何在 编程 中 仅 用 一 次 遍历 样本 数据 就 计算 出 偏 度 系 数 和 峰 度 系数 ? 

(2) ER (Kurtosis) 用 于 衡量 数据 分 布 形态 的 陡 缓 程度， 也 就 是 数据 在 中 间 聚 集 
的 程度 。 峰 度 描述 所 有 数据 取 值 分 布 形态 的 陡 缓 程度 。 峰 度 系数 与 变量 四 阶 中 心 距 和 方 
差 的 平方 有 关 ， 但 需要 乘 以 样本 容量 ?有 关 的 系数 并 减 去 与 样本 容量 ”有关 的 偏 移 量 。 
其 数学 计算 公式 为 T 
E n' (n1) ,20 -*) 3(n-1y 

(n-1)(n-2)(n—3) c* (n-2)(n-3) 

n (n1) ut — 3(n-ly 

C (n-1)(n-2)(n-3)o*  (n-2)(n-3) 


其 中 - LY (x -) 为 是 四 阶 中 心 答 。 为 确保 样本 峰 度 是 总 体 峰 度 的 无 偏 估 计 ， 其 前 
i=l 


n (n+1 3(n-1y 
RAMOS p p JEDE Pao ui R 0 3。 
峰 度 系数 取 值 大 于 1 小 于 n， 由 于 标准 正 态 分 布 的 峰 度 系数 为 3， 均 名 分 布 的 峰 度 
系数 为 1.8， 因 此 实践 中 通常 在 计算 峰 度 系 数 时 采取 减 3 处 理 ， 使 统计 分 布 的 峰 度 正 负 
刚好 能 反映 它 相对 于 标准 正 态 分 布 的 差异 ， 其 绝对 值 越 大 ， 表 示 与 标准 正 态 分 布 的 差异 
程度 越 大 ( 见 图 18-7) 。 
。 峰 度 为 抽 ， 表 示 分 布 曲 线 比 正 态 分 布 曲 线 多， 两 全 分散 的 数据 较 多 ， 王 现 为 平 
峰 长 尾 的 分 布 特征 ( 见 图 18-7 中 最 低 的 曲线 ) 。 
e 峰 度 为 0 时 ， 数 据 的 分 布 为 正 态 分 布 ， 即 中 间 井 线 的 形状 。 
e 峰 度 为 正 ， 表 示 分 布 曲线 比 正 态 分 布 曲线 较 高 ， 两 侧 分 散 的 数据 较 少 ， 呈 现 为 
尖峰 短 尾 的 分 布 特征 ( 见 图 18-7 中 最 高 的 曲线 ) 。 


B. 


图 18-7 平 峰 长 尾 与 尖峰 短 尾 


数据 分 析 中 可 用 峰 度 系数 这 一 统计 量 的 标准 误差 来 检验 数据 分 布 的 正 态 性 ， 如 果 峰 
度 系 数 与 其 标准 误差 比值 的 绝对 值 较 大 , 如 该 比值 绝对 值 大 于 2, 我 们 就 可 拒绝 正 态 性 。 
当然 数据 分 布 的 正 态 性 检验 最 常用 的 还 是 Q-Q 图 方法 。 
思考 : 总 体 正 态 分 布 的 峰 度 系数 为 什么 是 3? 
5,- sar] E: s (ze J| 38 X-N(u, P), Wl z-X-N(u, o^)-N(0, 1) 有 
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偏 度 系数 和 峰 度 系数 使 用 三 阶 和 四 阶 中 心 矩 进 行 计算 是 因为 奥 卡 姆 剃刀 “如 非 必 要 ， 
JS" 原则 。 在 计算 上 更 高 阶 中 心 矩 固 然 可 以 采用 ， 但 它 可 能 会 导致 复杂 性 太 大 而 
效果 并 不 会 比 它们 更 好 。 偶 数 阶 的 中 心 矩 反映 分 布 的 峰 度 ， 而 二 阶 中 心 矩 就 是 方差 ， 那 
为 什么 不 采用 方差 作为 峰 度 的 指标 呢 ? 那 是 因为 有 时 由 于 方差 相同 的 分 布 可 具有 不 同 峰 
度 ， 所 以 需要 引入 更 高 阶 的 偶数 中 心 失 ， 而 下 一 偶数 中 心 矩 刚 好 为 四 阶 中 心 矩 ; 为 了 消 
除 变量 值 和 量 纲 的 影响 ， 它 还 需 除 以 方差 的 平方 。 


18.1.4 ”置信 区 间 、 置 信 水 平 与 p- 什 


除了 前 面 列 出 的 这 些 样本 统计 量 ， 还 有 很 多 其 他 统计 量 ， 如 总 和 “SUM) 、 未 校正 的 平 
方 和 (USS)〉、 校 正平 方 和 偏差 平 方 和 CSS) 、 离 差 平 方 和 (每 个 观测 值 与 平均 值 之 偏差 
的 平方 和 SSD) 等 。 本 节 并 不 打算 陷入 这 些 计算 细节 之 中 ， 而 是 介绍 3 个 核心 统计 学 概念 。 

(1) 置信 区 间 (Confidence Interval, CD : 在 正 态 分 布 曲线 下 方 ， 围 绕 均 值 两 边 
占 比 9596 的 区 域 ， 观 测 值 x 会 落 在 介 于 /1.96c 和 A+l.96c 区 间 。 换 名 话说 ， 对 于 x 服 
从 均值 为 w， 标 准 差 为 的 正 态 分 布 ， 我 们 有 95% 的 信心 认为 其 观测 值 会 落 在 171.966 
到 w+1.96c 这 一 区 间 内 。 

由 于 统计 量 是 基于 样本 计算 出 来 的 ， 因 而 基于 每 个 样本 计算 出 的 统计 量 本 身 就 是 一 
个 随机 变量 。 而 我 们 需要 利用 该 统计 量 〈 是 一 个 随机 变量 ) 推断 出 总 体 参数 〈 一 个 实 实 
在 在 的 数值 而 非 随机 量 ) ， 因 此 我 们 需要 构造 出 一 个 包含 “总 体 参数 ”真实 值 的 区 间 ， 
称 为 置信 区 间 〈 置 信 区 间 本 身 也 是 随机 变量 ) ， 置 信 区 间 是 “总 体 参 数 ” 的 置信 区 间 。 

95% 的 置信 区 间 意 味 我 们 在 同样 的 条 件 下 重复 抽样 100 次 试验 ， 基 于 100 个 样本 计算 
出 的 置信 区 间 里 有 95 个 是 包括 总 体 参数 的 真实 值 的 ， 其 余 5 个 区 间 则 不 包含 总 体 参数 的 
真实 值 。 要 正确 理解 置信 区 间 ， 一 定 要 记 住 样本 统计 量 是 随机 变量 ， 而 总 体 参 数 是 一 个 固 
定 值 。 图 18-8 中 横 坐 标 是 试验 次 数 1, 纵 坐 标 是 观测 值 x， 如 90% 的 置信 区 间 该 如 何 理解 ? 
假如 重复 10 次 同样 的 试验 ， 用 10 个 样本 计算 得 到 的 区 间 中 有 9 个 会 包含 观测 的 总 体 均值 
u 而 其 中 某 一 个 样本 如 图 18-8 中 第 8 个 样本 则 不 包含 总 体 均值 w (不 与 总 体 均 值 上 相交 ) 。 


x 


8 


MULT 


18-8 ”置信 区 间 与 总 体 均值 y 的 关系 


(2) 置信 水 平 (Confidence Level) 刻画 总 体 均值 落 在 置信 区 间 (a,b) 内 的 可 能 性 
大 小 ， 称 为 置信 水 平 。 而 总 体 平均 值 4 落 在 置信 区 间 外 的 可 能 性 称 为 显著 性 水 平 ， 用 a 
表示 ， 则 置信 水 平 为 -a， 置 信 水 平和 显著 性 水 平 之 和 恒 为 1。 
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在 置信 水 平 相同 的 情况 下 , 样本 容量 ” 越 大 , 置信 区 间 越 帘 ; 样本 容量 相同 的 情况 下 ， 
置信 水 平 越 高 ， 和 置信 区 间 越 窄 。 置 信 水 平 95% 意味 着 多 次 抽样 中 有 95% 的 机 会 置信 区 
间 包 含 未 知 的 总 体 参 数值 ， 而 另外 的 5% 则 不 包含 总 体 参数 的 真实 值 。 至 于 基于 单 次 抽 
样 计算 得 到 的 置信 区 间 是 包含 总 体 参数 真实 值 的 区 间 ， 还 是 属于 个 别 不 包含 参数 值 的 区 
间 则 不 得 而 知 。 

(3) P- 值 (P-Value) 是 统计 学 家 费 软 在 假设 检验 理论 中 引入 ， 反 映 原 假设 Ho RE 

概率 的 概率 值 。 它 就 是 在 一 次 假设 检验 中 ， 利 用 观测 值 能 够 做 出 拒绝 原 假设 Ho 的 最 小 
显著 性 水 平 。 
由 于 显著 性 水 平 a 是 人 为 给 定 的 阔 值 ， 它 无 法 反映 出 观察 到 的 数据 与 原 假设 友之 
间 不 一 致 的 程度 。 为 了 衡量 原 假设 H 为 真 ， 所 得 到 的 样本 观察 结果 或 更 极端 的 结果 出 
现 的 概率 ， 也 就 是 说 检验 统计 量 大 于 或 等 于 实际 观测 值 的 概率 ， 需 要 引入 P- 值 来 表示 
Ho 能 被 拒绝 的 最 小 显著 性 水 平 ， 因 此 P- 值 也 被 称 为 观察 到 的 显著 性 水 平 。 

P- 值 跟 显著 性 水 平 a 非常 类 似 但 千 万 不 能 混淆 。 一 般 而 言 ， 如 果 P- 值 大 于 0.05, 
则 表示 倾向 于 接受 假定 的 总 体 参数 取 值 ， 如 果 P- 值 小 于 0.05， 则 表示 必须 拒绝 假定 的 
总 体 参数 取 值 ， 如 果 P- 值 小 于 0.01,， 则 表示 较 强 的 判定 结果 ,否则 表示 较 弱 的 判定 结果 。 


18.2 统计 学 上 的 变量 类 型 


在 从 数据 到 智能 的 演进 过 程 必须 经 历 4 个 阶段 :数据 一 信息 一 知识 一 智能 ， 其 中 数据 
扮演 着 最 基础 的 角色 。 数 据 本 身 来 自 实际 的 观测 ， 它 是 最 为 原始 的 实体 ， 数 据 本 身 除了 表示 
一 种 存在 性 外 并 没有 任何 含义 ， 通 常 表现 为 一 些 符号 ， 数 据 就 是 一 些 字 符 或 者 数字 组 成 的 
实体 。 数 据 库 就 是 包含 一 系列 由 这 些 数字 或 符号 组 成 的 所 谓 数据 库 表 或 者 树 状 层次 条 目 。 

在 统计 学 上 根据 观测 数据 所 包含 的 信息 ， 可 以 将 由 字符 或 数值 组 成 的 数据 分 成 分 类 
数据 (Categorical) 和 定量 数据 (Quantitative) ， 两 种 数据 代表 了 数据 量化 过 程 中 的 定 
性 和 定量 两 个 阶段 。 在 计算 机 上 数据 是 特定 变量 的 取 值 ， 其 中 分 类 变量 可 以 由 字符 类 型 
(Character) 或 者 数值 (Numeric) 类 型 数据 构成 ， 而 定量 变量 只 能 由 数值 类 型 数据 构成 。 

有 很 多 计算 机 专业 人 士 刚 开始 学 习 SAS 语言 编程 时 ， 总 是 会 惊异 于 SAS 的 DATA 
步 中 为 什么 只 有 这 两 种 最 基本 的 数据 类 型 ， 而 不 像 其 他 计算 机 编程 语言 那样 包括 布尔 型 、 
字 节 型 、 短 整 型 ， 长 整形 、 单 精度 浮 点 数 、 双 精度 浮 点 数 等 各 种 基本 数据 类 型 。 其 根本 
的 原因 是 SAS 语言 从 定义 之 初 就 是 为 数据 分 析 科 学 而 设计 的 ， 它 关注 数据 所 能 表达 的 信 
息 量 ， 甚 于 数据 的 存储 和 运行 结构 。 实 际 上 ， 大 部 分 通用 编程 语言 的 数据 类 型 系统 都 是 
j 向 计算 机 存储 和 表达 ， 而 不 是 数据 中 所 能 够 表达 的 语义 。 

对 于 分 类 变量 ， 它 可 以 进一步 根据 测量 尺度 (Scale of measurement). 或 测量 水 平 而 
分 为 定 类 变量 (Nominal) 和 定 序 变量 (Ordinal) ; 而 定量 变量 根据 观测 值 出 现 的 特征 
可 分 成 离散 变量 (Discrete) 和 连续 变量 (Continual) ， 其 中 对 于 连续 变量 ， 根 据 测 量 尺 
度 可 以 进一步 分 成 定 距 变 量 〈Interval) 和 定 比 变量 (Ratio) 。 统 计 学 上 我 们 会 探讨 各 种 
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随机 变量 以 及 它们 的 概率 分 布 ， 大 部 分 是 对 定量 变量 而 言 的 。 统 计 学 上 根据 测量 尺度 建 
立 的 数据 类 型 系统 如 图 18-9 所 示 。 


定 类 变量 。 定 序 变量 定 距 变 量 《 定 比 变量 
(Nominal) (Ordinal) (Interval) (Ratio) 


离散 变量 《 连续 变量 


(Discrete) (Continuous) 


分 类 变量 定量 变量 .---、 


(Categorical) (Quantitative) 
X 
字符 /数值 变量 类 型 数值 ii 
WERE 


图 18-9 统计 学 上 的 变量 类 型 


既然 数据 本 身 除 了 存在 别 无 意义 ， 我 们 从 这 些 字符 或 者 数值 的 “存在 ”中 辨别 它们 
的 统计 学 上 的 角色 就 很 重要 ， 因 为 不 同 的 测量 尺度 下 ， 它 们 所 能 表达 的 彼此 之 间 的 差异 ， 
以 及 差异 的 多 少 是 不 同 的 。 同 样 是 1 和 3， 如 果 表 示 的 是 运动 员 球 衣 上 的 编号 ， 它 只 是 
辨别 不 同 运动 员 的 身份 的 定 类 变量 ; 但 如 果 1，2，3 分 别 代表 冠军 、 亚 军 和 季军 排名 ， 
则 1 和 3 是 定 序 变量 ， 其 中 蕴含 着 第 1 名 比 第 3 名 更 优秀 的 信息 ， 然 而 它 并 不 能 揭示 他 
们 之 间 “ 优 秀 ” 的 差别 到 底 有 多 大 。 

如 果 1，2，3 是 十 二 小 时 制 (1:00:00-12:59:59) 计量 的 时 钟 时 间 ， 即 1 点 钟 、2 点 
钟 和 3 点 钟 ， 则 它 能 为 我 们 提供 更 多 的 信息 : 1 点 钟 和 2 点 钟 之 间 相 差 1 个 小 时 ，2 点 
钟 和 3 点 钟 之 间 也 是 相差 1 个 小 时 ， 两 者 之 间 的 差别 是 相等 的 ， 这 种 差别 跟 12 点 和 1 
点 之 间 的 差别 也 是 一 样 的 ， 此 时 十 二 小 时 制 计 量 的 时 钟 时 间 就 是 一 个 定 距 变量 ， 我 们 不 
能 认为 12 点 钟 和 3 点 钟 的 差别 跟 9 点 钟 和 12 点 钟 的 差别 有 什么 不 同 ， 此 时 数据 中 绝 不 
包含 这 么 一 个 信息 : 12 点 钟 是 3 点 钟 的 4 倍 ， 而 9 点 钟 是 12 点 钟 的 3/4。 按 摄氏 度 计 量 
的 温度 也 是 定 距 变量 的 一 个 例子 ， 如 1C 和 3'C， 它 们 相差 2C。 在 人 类 发 现 热力 学 绝对 
零度 C-273.15/'CÓ 的 存在 之 前 ， 我 们 只 能 用 摄氏 度 进行 温度 计量 。 

如 果 1，2，3 是 二 十 四 小 时 制 (0:00:00-23:59:59) 计量 的 时 钟 时 间 ， 即 1 点 钟 、2 
点 钟 和 3 点 钟 。 看 起 来 似乎 它 跟 十 二 小 时 制 之 间 没 有 什么 区 别 。 然 而 ， 该 测量 尺度 下 蕴 
含 一 天 的 起 点 是 零点 的 信息 ， 因 此 1 点 钟 和 12 点 钟 的 差别 是 11 个 小 时 ， 而 不 像 十 二 小 
时 制 下 相差 1 个 小 时 。 用 绝对 温度 (以 K 为 单位 ) 计 量 的 温度 1K 和 3K 由 于 存在 绝对 零度 ， 
它们 隐 含 了 更 多 信息 : 理想 气体 在 绝对 温度 SK 时 的 体积 约 为 是 1K 时 的 3 倍 。 因 此 如 
果 数 据 是 用 二 十 四 小 时 制 或 绝对 温度 计量 的 ， 则 变量 变 成 了 定 比 变量 。 因 此 纯粹 用 数字 
表达 信息 是 不 充分 的 ,在 数据 分 析 时 最 重要 的 是 要 知道 这 些 数据 所 蕴含 的 信息 量 有 多 大 ， 
而 变量 所 包含 的 信息 量 跟 测量 尺度 紧密 相关 。 

表 18-1 列 出 了 统计 学 上 根据 测量 尺度 划分 的 变量 类 型 ， 越 高 级 的 变量 类 型 刻画 
对 和 象 的 能 力 越 强 ， 它 具有 较 低 级 变量 的 特征 ， 也 可 以 退化 为 较 低 级 别 的 变量 类 型 进 
行 数据 分 析 处 理 ， 但 低级 变量 类 型 不 能 被 误 用 为 高 级 变量 类 型 进行 分 析 ， 因 为 那 是 
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表 18-1 统计 学 上 的 变量 类 型 
Ho g 


x 9l 


用 字符 或 数值 表示 个 体 在 属性 上 的 特征 或 类 别 上 的 不 同 ， 是 一 种 
分 类 标志 ， 但 没有 顺序 和 大 小 之 分 。 只 是 按 事物 的 某 种 属性 对 它 
进行 分 类 或 分 组 ， 能 衡量 事物 之 间 类 别 上 有 差异 ， 却 不 知道 它们 
的 差异 有 多 大 。 因 此 定 类 变量 只 能 作 “=” 与 “ 冯 ” 比 较 运 算 。 
如 果 定 类 变量 只 有 两 种 可 能 的 差异 , 则 称 为 二 项 变量 (Binominal) 


如 二 项 变量 性 别 : 男 / 女 
其 他 如 国籍 、 信 仰 、 人 
种 等 


用 字符 或 数字 表示 个 体 在 某 个 有 序 状态 中 的 位 置 ， 它 不 但 能 描述 
事物 之 间 存 在 差别 ， 而 且 能 够 描述 等 级 或 顺序 上 的 差异 ， 所 以 又 
称 顺序 尺度 。 定 序 变 量 除 了 拥有 定 类 变量 的 性 质 “=” 5g A” 
比较 运算 ) 外 , 它 由 于 有 方向 性 , 所 以 可 作 “<” 和 “>” 比 较 运算 。 
然而 ， 定 序 变 量 也 仅 此 而 已 ， 它 不 能 衡量 差别 的 程度 ， 它 依然 是 
一 个 没有 量化 信息 的 分 类 变量 

它 是 用 数值 表示 的 ， 能 够 衡量 彼此 之 间 间 距 的 变量 ， 也 称 间隔 尺 
BE. 但 由 于 该 尺度 下 没有 一 个 用 作 比 较 标准 的 绝对 零点 ， 因 此 它 
只 能 衡量 事物 在 类 别 或 次 序 上 的 距离 ， 通 常 带 有 自然 或 物理 上 的 


| 计量 单位 ， 如 摄氏 度 衡量 的 温度 就 是 一 个 定 距 变 量 


定 距 变量 除了 有 定 类 变量 和 定 序 变量 的 性 质 外 ， 它 可 以 做 加 减 运 
算 ， 但 不 能 乘除 。 比 如 12 小 时 制 (1-12 点 ) 下 的 时 钟 时 间 : 9 点 
不 代表 3 点 的 3 倍 ， 而 是 代表 它们 之 间 间 隔 6 小 时 

该 测量 尺度 下 的 变量 除了 具有 定 距 变量 所 具有 的 性 质 外 ， 它 还 具 
有 表示 没有 或 理论 极限 的 基准 零点 。 因 此 基于 基准 零点 ， 定 比 变 


| 量 不 但 可 以 作 加 减 运算 ， 还 可 以 作 乘 除 运算 。 比 如 身高 、 尺 寸 、 


体积 ， 收 入 金额 等 。 它 的 取 值 通常 大 于 零 ， 定 比 尺度 变量 取 对 数 
就 变 成 了 定 距 尺 度 变量 


如 学 历 : 高 中 /大 学 / 
研究 生 ;， 其 他 如 收入 等 
级 、 职 称 级 别 、 冠 亚 季 
军 、 左 中 右 等 


如 按照 摄氏 度 计量 的 温 
度 ，20C 和 30C 相 差 
100; 十 二 小 时 制 计量 
的 时 间 1 点 和 12 点 之 
间 相 差 1 个 小 时 


如 身高 、 尺 寸 、 体 积 ， 
用 开 为 单位 的 绝对 温 
度 、 反 应 时 间 、 收 入 、 
考试 成 绩 、 二 十 四 小 时 
制 时 间 等 


辨别 统计 学 上 的 数据 类 型 非常 重要 ， 因 为 它 不 但 决定 了 可 以 用 什么 统计 量 ， 绘 制 什 
么 类 型 的 图 形 图 表 ， 还 决定 了 用 哪 一 种 统计 分 析 方 法 进行 数据 处 理 。 频 数 、 百 分 比 以 及 
众 数 是 适用 于 任何 数据 类 型 进行 分 析 的 统计 量 ， 而 中 位 数 、 四 分 位 数 / 百 分 位 数 则 对 定 
序 类 型 数据 及 以 上 的 定量 数据 类 型 有 效 。 均 值 和 方差 适用 于 所 有 的 定量 数据 类 型 ， 而 几 
何平 均 数 、 调 和 平均 数 只 能 用 于 定 比 数据 类 型 。 也 就 是 说 ， 不 同 测量 尺度 下 的 数据 类 型 
所 蕴含 的 信息 量 (RAAR) 是 不 同 的 ， 分 析 数 据 的 第 一 步 就 是 要 搞 清 楚 数据 的 测量 
尺度 ， 然 后 根据 数据 类 型 选择 适合 的 统计 分 析 方法 。 表 18-2 列 出 了 不 同 变量 类 型 和 适用 
的 基本 统计 量 之 间 的 关系 。 


表 18-2 不 同 变量 类 型 与 适用 的 基本 统计 量 
适用 的 基本 统计 量 


中 位 数 ， 分 位 数 均值 , 方差 
中 位 数 ， 分 位 数 均值 ， 方 差 | 几何 ， 调 和 平均 数 


18.3 基本 数据 处 理 
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SAS 对 各 种 数据 分 析 功 能 进行 了 非常 好 的 封装 ， 因 此 大 部 分 功能 都 是 只 需要 提供 输 
入 数据 集 ， 设 置 正确 的 参数 调用 对 应 的 PROC 步 进 行 处 理 即 可 。 在 SAS 里 进行 数据 分 
析 首 先是 需要 了 解数 据 的 基本 结构 和 类 型 ，SAS 使 用 逻辑 库 和 数据 集 来 组 织 数据 ， 因 此 
我 们 首先 可 调用 PROC DATASETS 来 了 解 某 个 逻辑 库 的 信息 ， 程 序 18-1 列 出 系统 逻辑 
FE SASHELP 有 关 的 各 种 基础 信息 ， 比 如 SASHELP 逻辑 库 被 映射 到 23 个 不 同 的 目录 路 


径 上 ， 共 包含 408 个 数据 成 员 。 


程序 18-1 列 出 SASHELP 逻辑 库 信息 
proc datasets library-sashelp ; 
quit; 


其 输出 如 图 18-10 所 示 。 


Level 23 
EL va 
物理 名 C:\Program Files\SASHome\SASFoundation\9.A\stat\sashelp 
文件 名 CnProgram Files'SASHome|SASFouncation'9. 4istatisashelp. 
所 有 者 名 BUILTINAdministrators 
文件 大 小 4KB 
文件 大 小 〈 闻 节 ) 409% 
LIE 1 成 员 类 型 KFE 文件 大 小 OAM 
1 AACOMP DATA 4 
AACOMP INDEX 
2 AARFM DATA 3 
AARFM INDEX 
Lan ca 
一 en M e 
406 ZIPMIL DATA 16 
ZIPMIL INDEX 
407 ZTC DATA 3 
408 CMPIDX. DATA 8 


rr 


图 18-10 查看 逻辑 库 内 容 


如 果 想 在 查询 数据 集 信息 时 顺便 把 某 个 数据 集 〈 数 据 表 ) 的 详细 信息 列 出 来 ， 可 使 


用 该 过 程 步 的 contents 语句 指定 数据 集 的 名 字 〈 见 程序 18-2) 。 
程序 18-2 ” 列 出 SASHELP 逻辑 库 信息 和 数据 表 cLASS 的 元 数据 信息 


proc datasets library-sashelp ; 


contents data-SASHELP.CLASS order-collate; 


quit; 


如 果 我 们 只 想 知 道 某 个 数据 集 SASHELP.CLASS 的 属性 信息 ， 即 数据 集 的 元 数据 ， 
使 用 PROC CONTENTS 即 可 ， 程 序 18-3 可 输出 与 PROC DATASETS 指定 CONTENTS 


语句 的 输出 相同 结果 。 
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程序 18-3 列 出 SASHELP .CLASS 数据 表 的 元 数据 信息 
proc contents data-sashelp.class; 
run; 


如 果 我 们 需要 查看 数据 集中 的 数据 本 身 ， 则 可 以 通过 PROC PRINT 过 程 步 来 控制 ， 
程序 18-4 打印 结果 时 只 选择 显示 2 个 变量 〈 性 别 和 身高 ) 的 信息 ， 而 且 打 印 的 时 候 只 选 
前 10 行 记 录 。 如 果 变量 有 标签 信息 ， 则 显示 标签 〈 列 的 说 明文 字 ) 。 


程序 18-4 ”打印 数据 集 部 分 变量 的 信息 ， 仅 限 前 10 fT 

proc print data-SASHELP.CLASS(obs-10) label; 
var Sex Height; 

run; 


如 果 觉 得 PROC PRINT 功能 不 够 强大 ， 可 以 使 用 PROC REPORT 过 程 步 来 输出 
更 加 复杂 的 报告 〈 见 程序 18-50 ， 比 如 定制 标签 和 格式 ， 并 在 底部 显示 汇总 行 〈 见 
18-11) 。 


程序 18-5 PROC REPORT 生成 定制 格式 报告 
proc report data-sashelp.class; 
where Age»12; 
format name $10. sex $2. weight 7.2 height 7.2; 
label name-" X"; 
rbreak after / summarize style-[font weight-bold]; 
run; 


大 名 o "m F 身高 (英寸) ”体重 GE) 


EREE Z 14 69.00 112.50 
ns 女 14 62.80 102.50 
57 = 14 63.50 102.50 
nes 女 15 62.50 112.50 
xi 女 14 6430 90.00 
玛丽 女 15 66.50 11200 
tH 男 16 72.00 150.00 
E d E 15 67.00 133.00 
LI s 15 66.50 11200 

132 594.10 — 1027.00 


图 18-11 PROC REPORT 输出 报告 


如 果 对 于 某 个 逻辑 库 具 有 写 权 限 ， 比 如 临时 逻辑 库 WORK 中 的 数据 ， 我 们 可 以 随 
时 删除 不 需要 的 数据 集 ( 见 程序 18-6) o 
程序 18-6 ”删除 数据 集 


Proc delete data=work.MYCLASS; 
run; 


18.3.1 排序 与 排名 


数据 集 可 根据 一 个 或 多 个 变量 进行 排序 ， 输 出 唯一 的 排序 结果 。 默 认 对 每 
个 变量 递增 排序 ， 如 果 要 进行 递减 排序 ， 则 需要 在 对 应 的 变量 名 前 面 加 上 关键 词 
DESCENDING。 排 序 时 也 可 指定 多 个 变量 依次 进行 排序 〈 见 程序 18-7) 。 
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程序 18-7 数据 排序 : 可 以 按 多 列 排序 ， 可 在 变量 前 加 上 关键 词 DESCENDING 
proc sort data-sashelp.class out-sort class ; 
by height descending weight; 
run; 
proc print;run; 


排名 与 排序 是 不 同 的 概念 ， 它 是 计算 某 个 变量 的 观测 在 整个 数据 集中 的 位 置 排名 ， 
每 个 数值 变量 都 可 以 计算 对 应 的 排名 。 程 序 18-8 将 SASHELPCLASS 按照 身高 排名 ， 形 
成 排名 变量 rank Height 并 将 结果 输出 到 Work.rank class 中 。 排 名 RANK 与 排序 SORT 
不 同 ， 数 值 相同 的 变量 会 共享 排名 ， 它 等 于 校正 前 的 排名 之 和 除 以 相同 排名 的 观测 个 数 。 
比如 身高 为 62.5 英寸 的 雅 妮 特 与 亨利 排名 后 都 占据 第 8 位 和 第 9 位 ， 因 此 他 们 共享 排名 
(8+9)/2 = 8.5， 同 理 身高 为 66.5 英寸 的 玛丽 和 威廉 共享 排名 15.5。 比 如 : 

程序 18-8 ”数据 排名 : 按照 身高 进行 排名 求 秩 

Proc rank data=sashelp.class out=rank class; 

Var height; 


ranks rank height; 
run; 


程序 18-9 将 输出 数据 根据 排名 变量 rank_Height 进行 排序 后 打印 ， 它 可 检查 排序 与 
排名 之 间 的 不 同 。 


程序 18-9 ” 按 排名 变量 对 观测 进行 排序 检查 

Proc sort data=rank class out=sort rank class; 
by rank height; 

run; 

Proc print;run; 


也 可 以 同时 为 多 个 变量 生成 对 应 的 排名 变量 ， 比 如 同时 输出 Height 和 Weight 的 排 
名 值 〈 见 程序 18-10) ， 其 输出 结果 如 图 18-12 所 示 。 


程序 18-10 ”对 多 个 变量 进行 排名 生成 对 应 的 秩 

proc rank data-sashelp.class out-rank class; 
var height weight; 
ranks rank height rank weight; 

run; 


Obs Name Sex Age Height Weight rank Height rank Weight 
1RHAABE * ^u Go ms 180 155 
2am ë x | x5 mo 30 45 
Zn L S MO) TET 
WB E SH 397 Tre 9 
LIES I = n" 575 850 so 70 
19 a s 5 665 120 155 35 


图 18-12 ”生成 变量 的 秩 


18.3.2 ”数据 转 置 


将 数据 的 行 和 列 进行 交换 称 为 数据 转 置 ， 默 认 不 用 VAR 语句 指定 变量 时 只 对 数值 
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变量 进行 转 置 ， 否 则 需要 人 为 用 VAR 语句 指定 需要 转 置 的 列 。 数 据 转 置 时 也 可 以 指定 
输出 列 名 的 前 级 。 考 察 如 下 程序 18-11， 它 对 数据 集 的 行列 进行 了 旋转 。 结 果 如 图 18-13 
所 示 。 


程序 18-11 默认 数据 转 置 ， 仅 对 数值 变量 起 作用 
Proc transpose data=sashelp.class out=tran class; 
run; 


Proc transpose data=sashelp.class out=tran class prefix=var; 
var name age sex height weight ; /* 显 式 指定 变量 */ 

run; 

proc print;run; 


om LawE LABEL vani VARI VAR [vanns] vani | vanns varis 


Ime se mg am ss) [ow sna 
a } 
G 
3^ am e ou u n" 
s« au x x = s 
Co Ce € ss « 
s ea msu we m | 


18-13 ”数据 转 置 


18.3.3 HE E 


HS TS REEF P REA S RA FUHESGEOK. EREL RAT. Hebdo] nr NE 
具有 19 行 观测 的 SASHELPCLASS HHI 5 AFERE KOLEY 18-12), 形成 95 (719X 5) 
行 的 数据 集 。 结 果 如 图 18-14 所 示 。 


程序 18-12 REE 
data class; 
set sashelp.class; 
id=_n_;/* 生 成 行 标识 */ 
run; 


proc transpose data-class out-stack class(drop- name _label_ 
rename- (coll-all)) 
var name age sex height weight; /*J8& 5 列 为 1 列 ， 列 名 为 all*/ 
by id; 

run; 

proc print; run; 


91 19 x 
92 19 15 
s3193 
94 19 665 
95 19 12 


18-14 ”数据 的 堆 释 
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而 有 时 候 需要 根据 某 个 变量 的 取 值 ， 将 数据 拆 分 成 多 个 数据 行 或 列 。 比 如 按照 性 别 
不 同 将 变量 身高 的 数据 变 成 两 行 ( 见 程序 18-13) 。 注 意 其 中 由 于 女性 的 数据 比 男性 的 
数据 少 ， 因 此 第 2 行 最 后 一 列 为 缺失 值 〈 见 图 18-15) 。 


程序 18-13 ”数据 拆 分 

Proc sort data=sashelp.class out=sort class; 
by sex ; 

run; 


proc transpose data-sort class out-split class(drop- name ) prefix-VAR; 
var height; 
by sex; 

run; 

proc print;run; 


Obs Sex LABEL VARI VAR2 VAR3 VAR4 VARS VARG VAR7 VARB VAR9 VARIO 
15 S% (8Y) 690 635 573 625 590 720 648 670 575 655 
2% | EE (RJ) 565 653 628 598 625 513 643 563 665 


18-15 ”数据 拆 分 


如 果 仅仅 是 为 了 根据 性 别 把 数据 拆 分 表 成 两 个 数据 表 ClassF 和 ClassM， 我 们 还 可 
通过 如 下 程序 进行 拆 分 〈 见 程序 18-14) ， 结 果 如 图 18-16 所 示 。 


程序 18-14 ”将 数据 按照 某 个 变量 拆 分 成 两 个 表 

data ClassF (where=(sex=' 男 ')) ClassM(where=(sex='%')); 
set sashelp.class; 

run; 

proc print data-ClassF;run; 

proc print data-ClassM;run; 


Obs Name Sex Age Height Weight Obs Name Sex Age Height Weight 
1 ERRER S 14 690 1125 1 EHE z | 13 565 840 
2 5*5 $ | 14 635 1025 2 BB X | 13 653 980 
3 gu 男 | 12| 53 80 3 HUE (X | 14 628 1025 
LIES] EJ 13| 625 840 4 简 a 12 598 845 
ESL 男 | 12 590 995 S WES X | 15 625 1125 
6 菲利普 E 16 720 1500 6 Tem 女 n 513 505 
7 罗伯特 男 12 648 1280 7 *B X 14 643 900 
8 $58 男 15 670 1330 8 3ER X | (2 563 770 
9 托 纪 斯 E 11 575 850 9 EB zx 15 665 1120 
10 2# 男 | 15 665 1120 

图 18-16 表格 拆 分 


18.3.4 ”过 滤 数 据 


在 SAS 中 过 滤 数据 可 以 有 多 种 方法 ， 最 简单 的 是 利用 DATA 步 的 内 置 WHERE 或 
IF 语句 ， 或 者 WHERE 选项 。 比 如 按照 值 过 滤 出 身高 大 于 60 英寸 的 记录 ， 可 用 如 下 几 
种 方法 实现 〈 见 程序 18-15) 。 
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程序 18-15 ”WHERE 语句 和 IF 语句 过 滤 数 据 
data Filter Class; 
set sashelp.class; 
where Height»60; 
run; 


data Filter Class; 
set sashelp.class; 
if Height»60; 

run; 


通过 WHERE 语句 和 IF 取 子 集 语 句 都 可 实现 对 数据 的 过 滤 ， 然 而 WHERE 语句 
在 数据 进入 PDV 之 前 就 进行 过 滤 ， 是 最 为 有 效 的 ;而 用 语句 IF 过 滤 ， 是 对 已 经 加 
载 到 PDV 中 的 数据 进行 过 滤 ， 因 此 效率 稍 差 。 另 外 ，WHERE 是 编译 型 语句 ， 仅 适用 
于 从 SAS 数据 集 读 入 的 变量 ， 而 正 是 可 执行 语句 ， 对 SAS 数据 集 和 用 INPUT 语句 从 
外 部 文件 读 入 的 变量 均 有 效 。 实 际 上 ， 下 例 中 IF 取 子 集 Height>60 等 价 于 if Height<=60 
then delete 语句 〈 见 程序 18-16) o 


程序 18-16 IF 语句 的 两 种 等 价 形式 
data Filter Class; 

set sashelp.class; 

if Height<=60 then delete; /* 等 价 于 IF 取 子 集 */ 
run; 


data Filter Class; 

set sashelp.class; 

if Height»60 then output; 
run; 


更 灵活 的 是 在 指定 输入 和 输出 数据 时 通过 选项 进行 指定 ， 程 序 18-17 中 第 一 段 代码 
直接 在 输入 时 就 进行 过 滤 ， 而 第 二 段 在 最 后 输出 到 数据 集 时 进行 过 滤 。 


程序 18-17 ”使 用 输入 /输出 数据 集 选 项 过 滤 数据 
data Filter Class; 

set sashelp.class (where-(Height»60)); 
run; 


data Filter Class(where- (Height»60)); 
set sashelp.class; 
run; 


当然 ， 我 们 也 可 以 用 SQL 语句 对 数据 集 进行 过 滤 〈 见 程序 18-18) ， 结 果 是 等 价 的 。 


程序 18-18 ”使 用 PROC SQL 过 滤 数 据 
proc sql noprint; 
create table Filter Class as 
select * from SASHELP.CLASS where(Height >60); 
run; 
quit; 


在 执行 统计 分 析 时 ， 有 时 还 需要 根据 比例 或 者 百 分 位 数 进行 过 滤 ， 比 如 过 滤 出 身高 
排名 在 中 间 50% 的 记录 。 此 时 我 们 就 需要 先 计 算出 Ql, Q3 百 分 位 数 ， 然 后 根据 百 分 位 
数 (Q1 < =Height < Q3) 进行 过 滤 〈 见 程序 18-19) 。 
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程序 18-19 ”使 用 分 位 数 过 滤 数 据 
Proc univariate data=SASHELP.CLASS noprint; 
var Height; 
output pctlpts=25 pctlpts-75 pctlpre-Height out-HeightPct; 
run; 
data null ; 
set HeightPct; /* 利 用 宏 变 量 在 DATA/PROC 之 间 传 递 数值 */ 
call symput(' Height25', Height25); 
call symput(' Height75', Height75); 
run; 


proc sql noprint; 
create table WORK.filter as 
select * from SASHELP.CLASS 
where( & Height25«- Height AND Height «& Height75) 
order by Height; /* 利 用 传递 过 来 的 宏 变 量 进行 过 滤 */ 
quit; 
Proc print;run; 


18.3.5 ”随机 抽样 


由 于 总 体 的 不 均匀 性 和 样本 的 随机 性 ， 从 总 体 中 抽取 的 个 体 通常 不 能 精确 反映 总 体 。 
因此 统计 学 中 发 展 出 各 种 抽样 设计 方法 ， 以 确保 抽出 来 的 样本 具有 很 好 的 代表 性 。 表 现 
在 数据 分 析 中 就 是 如 何 从 一 个 大 的 数据 集中 科学 地 抽取 一 个 较 小 的 样本 ， 主 要 有 简单 随 
机 抽样 、 周 期 系统 抽样 、 分 层 抽样 和 整 群 抽样 等 方法 。 

如 要 对 数据 集 进 行 抽样 ， 需 要 先 将 数据 按 变量 排序 后 使 用 PROC SURVEYSELECT 
来 抽样 。SAS 提供 各 种 各 样 的 抽样 方法 。 程 序 18-20 使 用 简单 随机 抽样 (Simple Random 
Sampling, SRS) 方法 从 SASHELPCLASS 19 个 变量 中 根据 性 别 Sex 变量 等 概率 无 替换 
地 抽取 10 个 样本 ， 结 果 如 图 18-17 所 示 。 

程序 18-20 数据 简单 随机 抽样 示例 

Proc sort data=SASHELP.CLASS out=Sort Class; 


by Sex; 
run; 


proc surveyselect data-Sort Class out-Sample Class method-srs sampsize-10 ; 
strata Sex / alloc-prop; 

run; 

proc print; run; 


Obs Sex Name Age Height Weight Total AllocProportion SampleSize ActualProportion SelectionProb SamplingWeight 
13 BARES m 60 125 10 0.52632 | 5| 05 | 0.50000 | 20 
25 7*5 14! €635| 105 10 0.52632 5 05 0.50000 20 
38 AAN 13 @5 840| 10 0.52632 5 05 0.50000 20 
42 £5" 12 590 995| 10 0.52632 5 os 0.50000 20 
5 男 罗伯特 12 648| 1280 10 0.52632 5 05 0.50000 20 
6 x | 爱丽 丝 13 565 840 9 0.47368 5 05 0.55556 18 
LEE 1 13 653| 80 9 0.47368 5 o5 0.55556 18 
ax aa "| &8 1025|) 9 0.47358 5 05 0.55556 18 
9 女 | 牙 妮 特 15| €5| 1125 9 0.47368 5 o5 0.55556 18 
JEMES] 12 53) 70 9 0.47368 5 05 0.55556 18 


图 18-17 数据 抽样 
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如 果 要 进行 不 受 限 制 的 简单 随机 抽样 ， 应 该 将 方法 设置 为 METHOD=URS， 它 是 有 
替换 的 等 概率 抽样 。 该 过 程 步 支持 各 种 等 概率 随机 抽样 ， 只 需要 简单 设置 抽样 方法 即 可 
实现 简单 随机 抽样 (无 放 回 的 )、 不 受 限制 的 简单 随机 抽样 (有 放 回 ) 、 系 统 随 机 抽样 、 
顺序 随机 抽样 以 及 伯 努 利 抽样 等 。PROC SURVEYSELECT 也 支持 泊 松 抽样 和 各 种 PPS 
抽样 ( 容量 比例 概率 二 阶段 整 群 抽样 )。 


18.36 ”基本 统计 量 


SAS 有 很 多 过 程 步 可 以 生成 前 面 所 讲 的 基本 统计 量 ， 其 中 PROC MEANS 就 
是 最 简单 的 方法 。 默 认 情 况 下 它 计算 样本 容量 N、 均 值 、 标 准 差 、 最 小 值 和 最 大 值 。 
程序 18-21 至 程序 1824 分 别 计算 SASHELPCLASS 数据 集 的 基本 统计 量 、 集 中 趋势 统 
计量 、 离 散 趋势 统计 量 和 分 布 特征 统计 量 ， 输 出 分 别 如 图 18-18 到 图 18-21 所 示 。 

程序 18-21 计算 指定 变量 的 基本 统计 量 : N 均值 标准 差 最 小 值 最 大 值 


proc means data-sashelp.class; 
var Age Height Weight ; 


run; 
变量 《标签 N 均值 标准 差 最 小 值 Rd 
Age Ed 19  13.3157895  1.4926722 11.0000000 16.0000000 
Height 身高 (英寸 ) 19 62.3368421  5.1270752 51.3000000  72.0000000 
Weight 体重 (8) 19 100.0263158 22.7739335 50.5000000 150.0000000 


图 18-18 基本 统计 量 (1) 


程序 18-22 ”计算 数据 集中 趋势 统计 量 : 均值 众 数 中 位 数 
Proc means data=sashelp.class mean mode median 
var Age Height Weight ; 


run; 
2E dax 均值 众 数 püs 
Age Fë 13.3157895 12.0000000 13.0000000 
Height ”身高 (3v) | 62.3368421 62.5000000 62.8000000 
Weight 体重 (38) | 100.0263158 84.0000000 99.5000000 


图 18-19 基本 统计 量 (2) 


程序 18-23 ”计算 数据 离散 趋势 统计 量 : 极 差 方差 标准 差 变异 系数 最 小 值 下 四 分 位 数 上 四 分 位 数 最 大 值 
proc means data-sashelp.class range var std cv min ql q3 max; 
var Age Height Weight ; 


run; 
Er LI 方差 标准 差 ”变异 系数 最 小 值 四 分 位 数 下 限 四 分 位 数 上 限 最 大 值 
Age E 5.0000000 2.2280702  1.4926722 11.2097909 11.0000000 12.0000000 15.0000000 16.0000000 
Height 身高 (英寸 ) 20.7000000 26.2869006. 5.1270752  8.2247914 51.3000000 57.5000000 66.5000000 72.0000000 


Weight 体重 (2) 99.5000000 518.6520468 22.7739335 22.7679419 50.5000000 84.0000000 112.5000000 150.0000000 


18-20 ”基本 统计 量 G) 


程序 18-24 计算 数据 分 布 特征 统计 量 : 偏 度 和 峰 度 系数 

Proc means data=sashelp.class SKEW KURT; 
var Age Height Weight ; 

run; 


第 18 章 统计 学 基础 CI 


Age Ez d 0.0636117 -1.1109255 
Height 身高 (英寸 ) |-0.2596696 -0.1389692 
Weight {$E (=) 0.1833510  0.6833648 


图 18-21 基本 统计 量 (4) 


实际 上 ，PROC MEANS 也 可 以 计算 均值 95% 的 置信 区 间 上 下 限 UCLM 和 LCLM， 
同时 也 可 以 计算 t 统 计量 以 及 对 应 的 概率 值 ( 见 程序 18-25) ， 进 行 简单 的 假设 检验 。 此 
时 如 果 该 变量 表示 两 个 样本 的 差异 值 ， 则 计算 出 来 的 t 统计 量 和 了 P- 值 可 直接 进行 t 检 
验 ( 见 图 18-22 所 示 ， 详 情 参 考 方差 分 析 一 章 ) 。 

程序 18-25 ”计算 置信 区 间 以 及 + 统 计量 


proc means data-sashelp.class LCLM UCLM t Probt; 
var Age Height Weight ; 


run; 
均值 95% HES% 
SES 标签 置信 下 限 SBLM td Prol 
Age =è 12.5963445 14.0352344 38.88  «.0001 


Height 身高 (英寸 ) 59.8656709 64.8080133 5300  «.0001 
Weight 体重 (38) 89.0496312 111.0030004 19.14  «.0001 


图 18-22 均值 的 置信 区 间 与 + 统计 量 


作为 程序 员 与 数据 科学 家 ， 不 仅 要 知道 如 何 用 SAS 方便 地 算出 这 些 统计 量 。 有 必要 的 
时 候 还 能 自己 写 程序 进行 计算 。 下 面 笔者 编写 的 SAS 程序 〈 见 程序 18-26) 仅 用 一 次 循环 样 
本 数据 就 可 计算 出 偏 度 系数 和 峰 度 系数 ， 结 果 与 SAS 计算 出 来 的 完全 相同 如 图 18-23) o 


程序 18-26 编程 计算 基本 统计 量 : 方差 ， 偏 度 和 峰 度 系数 
data STAT CLASS; 
set sashelp.class end-last; 


retain sum 0; retain sum2 0; retain sum3 0; retain sum4 0; 
sum-sumtweight; 

sum2-sum24weight**2; 

sum3-sum34weight**3; 

sum4-sum44*weight**4; 


if last then do; 
mean-sum/ N ; 
n- N; 


variance = sum2 / n - (mean **2 ); /* 方 差 Viriance， 如 果 是 样本 */ 
if n>1 then variance = variance * n / (n-1); /* 如 果 是 样本 ， 则 应 该 是 N-1 而 非 N*/ 
sd-sqrt( variance); /* 标 准 差 Standard Deviation */ 


Skewness- sum3 - 3 * sum2 * mean + 3 * sum * mean**2 - n * mean**3; 


Skewness- skewness/n; 
Skewness- skewness * n / (n-1) * n / (n-2) ; 
Skewness- skewness / (variance * sd); 


kurtosis-sum4 - 4* sum3 * mean + 6 * sum2 * mean**2 - 4 * sum * 
mean**3 十 n * mean**4 ; 
kurtosis-kurtosis / n; 
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kurtosis-kurtosis * (n / (n-1))* (n / (n-2)) * ((n*1)/(n-3)); 


kurtosis-kurtosis / (variance * variance); 
kurtosis-kurtosis - 3* ( n-1 )/(n-2) * (n-1)/(n-3); 
put skewness 9.7 " " kurtosis 9.7; 
output; 
end; 
keep n sum mean variance skewness kurtosis ; 
label n=" 观 测 的 个 数 ” sum=" 总 和 "Mean=" 均 值 ” Variance=" 方 差 " skewness=" 
RE" kurtosis=" 峰 度 "”; 
run; 
proc print data-STAT CLASS label noobs;run; 
总 和 | ”均值 观测 的 个 数 。 方差 | &* dm 
1900.5 | 100.026 19 518.652 0.18335 | 0.68336 


图 18-23 ”编程 计算 偏 度 与 峰 度 系 数 


18.4 基本 图 形 图 表 


图 形 图 表 在 直观 显示 数据 分 布 特征 ， 揭 示 数 据 潜藏 的 模式 和 识别 异常 值 方面 具有 重 
要 的 作用 ， 因 此 对 于 不 同 数据 类 型 需要 用 不 同 的 图 形 图 表 进 行 展 现 ， 称 为 数据 可 视 化 。 
进行 数据 可 视 化 是 需要 根据 前 面 讲 的 对 不 同 测量 尺度 下 的 数据 类 型 进行 科学 呈现 ， 如 果 
用 不 恰当 的 图 形 呈 现 数 据 可 能 引入 没有 意义 的 误导 信息 。 

1. 柱状 图 /条 形 图 

在 Base SAS 中 可 以 有 多 种 方法 呈现 图 形 ， 用 得 较 多 的 是 SGPLOT 过 程 步 ， 其 中 用 
不 同 的 语句 控制 图 表 的 类 型 ， 比 如 vbar 表示 绘制 柱状 图 (垂直 条 形 图 ) ，hbar 表示 绘制 
条 形 图 (水 平 条 形 图 ) 。 程 序 18-27 绘制 了 简单 的 垂直 条 形 图 ( 见 图 18-24) 。 

程序 18-27 ”简单 垂直 条 形 图 : 分 类 变量 为 Age ， 响 应 变量 为 Height， 软 认 统计 量 为 SUM 

proc sgplot data-SASHELP.CLASS; 


vbar Age / response-Height; 
run; 


300. 


15 16 


H i» 4$ M 
年 龄 
图 18-24 ”垂直 条 形 图 
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为 了 在 立轴 上 显示 平均 值 ， 而 不 是 按照 类 别 累计 求 和 ， 需 要 在 vbar 语句 上 显 式 指 
定 统计 量 为 均值 ( 见 程序 18-28) ,输出 结果 如 图 18-25 所 示 ， 此 时 纵 坐 标的 数值 为 均值 。 


proc sgplot data-SASHELP.CLASS; 
vbar Age / response-Height stat-Mean; 
yaxis grid; 

run; 


13 14 
年 龄 
图 18-25 均值 的 垂直 条 形 图 


如 果 需 要 指定 按照 性 别 进行 分 组 ， 还 可 以 在 vbar 语句 上 指定 分 组 变量 。 程 序 18-29 
的 输出 如 图 18-26 所 示 。 


proc sgplot data-SASHELP.CLASS; 
vbar Age / response-Height stat-Mean group-Sex; 
yaxis grid; 

run; 


FEDES m 4] 
18-26 42HASEEHAJEE GEA) 


2] TEMI ERREZE, RITETE ARHERRHEREA, mE HEE 
比 差异 的 并 列 布局 ， 则 需要 指定 分 组 显示 模式 GroupDisplay 为 Cluster〈 见 程序 18-30 和 
图 18-27) 。 
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程序 18-30 ”分 组 并 列 垂直 条 形 图 

proc sgplot data-SASHELP.CLASS; 
vbar Age / response-Height stat-Mean group-Sex groupdisplay-Cluster; 
yaxis grid; 

run; 


11 12 15 16 


BL 14 
Pigs 
性 别 m mi 

图 18-27 分 组 垂直 条 形 图 (并 排 》 


如 果 希 望 根据 性 别 绘制 两 个 柱状 图 ， 而 不 是 将 它们 放 在 同一 柱状 图 中 ， 则 需要 利用 
BY 变量 来 分 别 生 成 对 应 性 别 的 条 形 图 ， 此 时 要 求 数 据 集 包含 BY 变量 ， 如 果 数 据 集 没 
有 预先 根据 该 变量 排序 ， 则 需要 先 排序 后 再 调用 SGPLOT 过 程 步 绘图 。SAS 大 部 分 的 图 
形 图 表 过 程 步骤 都 支持 利用 BY 变量 生成 多 组 图 形 〈 见 程序 18-31 和 图 18-28) 。 


程序 18-31 通过 BY 变量 分 组 输出 图 形 

proc sort data-SASHELP.CLASS out-SORT CLASS; 
by Sex;/* 先 按照 性 别 排序 */ 

run; 

proc sgplot data-SORT CLASS; 
by Sex;/*T)]R BY 变量 绘制 一 组 图 */ 
vbar Age / response-Height stat-Mean 
yaxis grid; 

run; 


性 别 = 男 


n 12 13 
年 龄 年 龄 
图 18-28 BY 变量 分 别 输出 垂直 条 形 图 


SAS 生成 图 形 的 时 候 还 可 以 生成 “交互 式 ” 图形 ， 即 用 户 可 以 在 图 上 点 击 浏览 或 
者 跳 转 到 特定 报告 或 页 面 。 在 程序 18-32 生成 的 结果 报表 中 ， 用 户 可 以 点 击 图 形 元 素 跳 
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转 到 指定 的 URL 上 ， 比 如 跳 转 到 搜索 引擎 查找 数据 集中 人 名 。 这 种 模式 需要 启用 ODS 
GRAPHICS 特性 ， 且 数据 集中 有 一 个 URL 变量 包含 跳 转 的 目标 地 址 。 


程序 18-32 ”生成 用 户 可 交互 的 图 表 


ods graphics / reset imagemap; 


data myclass; 
set sashelp.class;/* 构 造 URL 地 址 */ 
url-'http://www.google.com/search?&q-' || trim(left (name)); 
run; 
proc sgplot data-myclass; 
vbar Age / response-Height stat-Mean url-url; 
yaxis grid; 
run; 


ods graphics / reset; 


柱状 图 和 条 形 图 适合 对 一 个 分 类 变量 和 一 个 数值 型 响应 变量 进行 绘图 。SGPLOT 还 
支持 将 多 个 兼容 的 图 形 绘制 在 同一 个 图 中 《 见 程序 18-33) ， 比 如 可 以 把 柱状 图 和 线 图 
结合 起 来 形成 条 线 图 ， 它 有 两 个 垂直 坐标 轴 : 左边 的 了 轴 和 右边 的 22 轴 ， 其 横 坐 标 分 
类 变量 则 相同 〈 见 图 18-29) 。 


程序 18-33 ” 双 轴 条 线 图 的 生成 

proc sgplot data-SASHELP.CLASS nocycleattrs; 
yaxis grid min-0 max-80 ; 
vbar Age / response-Height stat-Mean ; 


y2axis min-0 max-200; 
vline Age / response-Weight stat-Mean y2axis 
lineattrs-(thickness-3); 
xaxis; 
run; 


区 身高 GEqO— HE Gi] 


1829 ”条 线 图 


2. 直方 图 与 盒 形 图 
直方 图 是 统计 中 最 基础 的 图 形 ， 它 可 对 某 个 变量 进行 分 组 统计 。 它 与 条 形 图 是 不 同 
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的 图 形 种 类 ， 直 方 图 的 纵 坐 标 不 需要 指定 响应 变量 ， 且 其 横 坐 标的 各 个 柱 之 间 是 没有 空 
险 ， 表 示 在 数据 区 间 上 的 分 布 情况 〈 见 程序 18-34 和 图 18-30) 。 


程序 18-34 直方 图 

proc sgplot data-SASHELP.CLASS; 
histogram Age; 
yaxis grid; 

run; 


12 


14 
年 龄 
图 18-30 ”直方 图 


如 果 用 户 想 要 改变 直方 图 的 横 坐 标 起 点 和 宽度 ， 可 在 histogram 语句 上 指定 选项 ， 
如 下 代码 可 设 定 从 10 开始 ， 每 个 区 间 宽 度 为 1.2。 


histogram Age / binwidth-1.2 binstart-10; 


直方 图 数据 也 可 通过 编制 频数 表 获 得 ， 比 如 通过 PROC FREQ 就 能 输出 频数 表 。 将 
下 面 代码 ( 见 程序 18-35) 输出 的 表 横 过 来 看 , 其 百分比 就 跟 上 面 的 直方 图 是 一 一 对 应 ( 见 
图 18-31) 。 


程序 18-35 HAR 

proc freq data-sashelp.class; 
tables Age / out-Freq Age; 

run; 

proc print data-Freq Age;run; 


sm 

jp mm xm 
Age SR 百分比 sm 百分比 
n| 2/1053 2| 1053 
12| 5 2632 7| 3684 
| 3| 3 1579 10 5263 
(4| 4| zw 14| 7368 
15| 4| 2105 18| 9474 
16 1 526 19| 100.00 


图 18-31 频数 表 


当然 , 频数 表 可 以 使 用 多 个 变量 进行 交叉 统计 , 此 时 输出 结果 中 就 包含 频数 、 百 分 比 、 
行 百 分 比 和 列 百分比 等 信息 。 
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程序 18-36 ”交叉 统计 表 

Proc freq data=sashelp.class; 
tables Age*Sex; 

run; 


16 TCI 1 
526 000 526 

10000! 000 

1000 0.00 
合计 10 9 19 


S263 4737 10000 


18-32 ”交叉 统计 表 〈 年 龄 X HERD 


绘制 直方 图 时 可 以 同时 绘制 参考 正 态 分 布 曲线 和 核 密度 估计 曲线 ， 分 别 用 
DENSITY 语句 指定 。 程 序 18-37 展示 了 基于 SASHELPCLASS 年 龄 变量 的 样本 数据 分 
布 情况 。 


程序 18-37 直方 图 和 核 密度 估计 曲线 
proc sgplot data-SASHELP.CLASS; 

histogram Age ; 

density Age; 

density Age / type-Kernel; 
run; 


图 18-33 直方 图 与 核 密 度 估计 曲线 
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盒 形 图 可 以 展示 某 个 样本 的 数据 分 布 情况 ， 它 能 在 单个 图 上 展现 该 变量 的 最 小 值 、 
下 四 分 位 数 、 中 位 数 、 上 四 分 位 数 和 最 大 值 ， 以 及 均值 和 异常 值 的 情况 。 程 序 18-38 JE 
示 了 Age 变量 按照 性 别 分 组 生成 盒 形 图 18-34 的 情况 。 从 盒 形 图 可 看 出 女性 的 年 龄 中 位 
数 比 男性 的 低 。 

程序 18-38 ”分 组 盒 形 图 揭示 数据 分 布 特征 

Proc sgplot data=SASHELP.CLASS; 


vbox age / group=sex fillattrs=(color=CXCADS5ES5); 
run; 


年 龄 


TE Dg Bx 


图 18-34 AWR (分 组 ) 


3. 散 点 图 及 拟 合 


SGPLOT 支持 散 点 图 的 绘制 ， 同 时 它 甚至 可 以 直接 进行 回归 拟 合 。 下 面 的 代码 先 用 
scatter 语句 按照 性 别 不 同 用 两 种 颜色 绘制 所 有 的 点 ， 然 后 用 reg 语句 对 体重 和 身高 进行 
一 次 线性 回归 拟 合 〈 见 程序 18-39) 。 如 果 想 用 二 次 方 或 更 高 次 方程 进行 拟 合 ， 可 在 reg 
语句 后 指定 degree-2 或 3 即 可 。 


程序 18-39 ” 散 点 图 和 线性 回归 拟 合 
proc sgplot data-SASHELP.CLASS; 
scatter x-Height y-Weight / group-sex datalabel-Name 
datalabelattrs- (size-7); 
reg x-Height y-Weight / nomarkers degree-1; 
xaxis grid; 
yaxis grid; 
run; 


程序 运行 的 输出 结果 如 图 18-35 所 示 。 
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图 18-35 ” 散 点 图 及 回归 


如 果 要 按 性 别 分 别 对 数据 进行 回归 拟 合 ， 只 需要 在 reg 语句 上 增加 一 个 group=sex 
属性 ， 即 可 按照 特定 性 别 的 数据 进行 分 组 线性 回归 CLER 18-36) o 
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图 18-36 散 点 图 及 分 组 回归 


此 时 如 果 想 要 把 两 图 拆 分 ， 则 需要 把 SGPLOT 改 成 SGPANEL 过 程 步 ， 并 通过 
PANELBY 指定 面板 分 组 变量 〈 见 程序 18-40) 。 
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程序 18-40 ”SGPANEL 分 组 绘制 散 点 图 和 线性 拟 合 
proc sgpanel data-SASHELP.CLASS; 
panelby sex/ columns-2; 


scatter x-Height y-Weight / group-sex datalabel-Name datalabelattrs- (size-7); 


reg x-Height y-Weight / nomarkers; 
run; 


此 时 代码 输出 如 图 18-37 所 示 。 


性 别 = 男 性 别 = 女 


图 18-37 SGPANEL 拆 分 多 图 


在 Base SAS 中 还 有 专门 用 于 绘制 散 点 图 矩阵 的 过 程 步 SGSCATTER， 比 如 程序 18-41 
的 SAS 代码 生成 了 两 个 散 点 图 ， 纵 坐标 为 体重 和 身高 ， 横 坐标 为 年 龄 ， 并 且 按 照 性 别 分 
组 变量 用 不 同 的 标记 投 点 〈 见 图 18-38) 。 

程序 18-41 PROC SGSCATTER 绘制 散 点 图 


proc sgscatter data-sashelp.class; 
plot weight*age height*age / group-sex; 


run; 
140. 704 
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18-38 SGSCATTER 分 组 散 点 图 


第 18 章 SES 8301 


当 分 析 的 数据 包含 多 个 变量 时 ， 为 了 对 比 不 同 变量 的 直方 图 以 及 样品 在 两 个 变量 空 
间 的 投 点 ， 可 以 用 SGCATTER 过 程 步 绘制 复合 散 点 图 和 直方 图 矩阵 ( 见 程序 18-42 和 
18-39) 。 

程序 18-42 绘制 散 点 图 矩阵 ， 以 及 直方 图 / 核 密度 曲线 

proc sgscatter data-sashelp.class ; 


matrix age weight height / ellipse-(type-mean) diagonal-(histogram kernel); 
run; 


年 龄 


年 龄 年 龄 


身高 /英寸 


图 18-39 ” 散 点 图 矩阵 与 数据 分 布 


4. 任意 函数 曲线 一 一 斐 波 那 契 螺旋 线 


在 SAS 中 也 可 以 绘制 任何 数学 函数 曲线 ， 一 般 做 法 是 先 用 函数 生成 数据 序列 ， 然 后 
利用 该 数据 进行 绘图 和 分 析 即 可 。 第 2 章 的 程序 2-42 利用 正弦 和 余弦 函数 生成 数据 绘制 
了 对 应 的 函数 曲线 。 程 序 18-43 是 作者 编写 的 绘制 斐 波 那 契 螺旋 线 〈 黄 金 螺旋 ) ， 它 展 
示 了 以 斐 波 那 契 数 为 边 长 的 正方 形 在 平面 上 螺旋 铺 满 整个 平面 的 过 程 ， 而 这 些 正方 形 的 
内 切 1/4 圆 弧 构 成 了 黄金 螺旋 线 (详细 步骤 参见 代码 注释 , 结果 如 图 18-40 所 示 ) 。 实 际 上 ， 
SAS 中 可 以 非常 方便 绘制 任何 复杂 的 数学 图 形 ， 包 括 等 值 线 图 、 分 形 图 、 各 种 地 图 和 彩 
色 卫 星 地 图 等 。 

程序 18-43 ” 斐 波 那 契 螺旋 线 

data Fbnc; 

pi-constant ("PI"); 
do n-1 to 10; 


if n=1 or n-2 then x-1; 
else x- xl + x2; 
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x2=x1; xl-x; 


theta= (n+1) * pi/2;/* 依 次 旋转 90 度 */ 
if mod(n,4)-3 or mod(n,4)-0 then sign--1; 
else sign=1;/* 符 号 每 次 变换 一 次 */ 


retain x0 y0; 
z-lag2 (x) ; /* 上 上 次 的 黄金 分 割 数 */ 
if n-1 OR n=2 then do; 
x0-1; 
y0-0; 
end; /* 前 两 个 中 心 点 */ 
else do;/* 交 替 变 换 中 心 点 的 X/x 坐标 */ 
if mod(n,2)-1 then x0=x0 + sign * z; 
else y0=y0 + sign * z; 
end; 
/* 根 据 中 心 点 计算 内 切 1/4 圆 */ 
do t-theta to theta+pi/2 by 0.1; 
xx-x0 + x * cos(t); 
yy=y0 + x * sin(t); 
output; 
end; 
/* 根 据 中 心 点 ， 旋 转 前 后 两 点 绘制 以 斐 波 那 契 数 为 边 的 正方 形 */ 
xx-x0 + x * cos(thetatpi/2); yy=y0 + x * sin( thetatpi/2); output; 
Xxx-x0; yy-y0; output; 
xx=x0 + x * cos(theta); yy=y0 + x * sin(theta); output; 
xx=x0 + x * cos(theta); yy=y0 + x * sin(theta*pi/2); output; 
xx=x0 + x * cos(thetatpi/2); yy=y0 + x * sin( theta*pi/2); output; 
end; 
keep x xx yy; 
format x best32.; 


run; 
/* 调 用 scPLOT 将 所 有 点 连 起 来 ， 其 中 width 和 aspect 用 于 保持 正方 形 */ 
ods graphics on / width-640pt border-off; 
proc sgplot data-fbnc aspect-0.6 noautolegend ; 
series x-xx y-yy/group-x; 
xaxis display-none; 
yaxis display-none; 
run; 


程序 运行 后 输出 结果 如 图 18-40 所 示 。 


18-40 ” 斐 波 那 契 黄金 数列 


对 于 其 他 复合 数学 函数 也 可 用 类 似 的 方法 生成 ， 思 路 都 是 先生 成 数据 后 调用 
SGPLOT 绘制 。 但 如 果 需 要 绘制 三 维 图 像 ， 则 需要 用 到 SAS/GRAPH 图 形 包 中 的 一 些 
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PROC 步 来 做 ， 程 序 18-44 的 13 fT SAS 代码 可 绘制 三 维 函数 图 像 ， 即 z=f(x, y) 在 三 维 
空间 的 投影 ， 结 果 如 图 18-41 所 示 。 


程序 18-44 绘制 三 维 函 数 图 像 
data mydata; 
PI-constant ("PI"); 
do x- -PI to PI by 0.05; 
do y- -PI to PI by 0.1; 
r-sqgrt (x**2ty**2); 
z-cos(4*r)/r ; 
output; 
end; 
end; 
run; 
proc g3d data-mydata ; 
plot x*y-z ; 
run; 


22 


34 34 


18-41 SAS 绘制 三 维 图 像 


18.5 SAS 产品 与 过 程 步 概 览 


经 过 40 多 年 的 发 展 ，SAS 将 各 种 数据 分 析 方 法 和 功能 都 进行 了 很 好 的 封装 和 统 
一 ， 形 成 了 数 百 个 严谨 专业 的 统计 分 析 PROC 步 ， 完 成 特定 领域 的 分 析 功 能 。 截 至 目 
前 ，SAS 33 个 核心 分 析 产 品 中 包括 了 425 个 唯一 命名 的 PROC 步 ， 其 中 SAS/STAT 和 
Base SAS 产品 包含 的 PROC 步 最 多 ， 分 别 为 100 个 和 95 个 ; 其 他 如 SAS/ETS、SAS/ 
GRAPH、SAS Visual Statistics 和 SAS VDMML 等 产品 也 都 包含 20 多 个 不 等 的 过 程 步 。 
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SAS 完整 的 PROC 列表 根据 笔者 的 统计 如 图 18-42 所 示 。 


SAS/STAT 

Base SAS 

SAS/ETS 

SAS/GRAPH 

SAS Visual Statistics 

SAS Visual Data Mining and Machine Learning 
SAS/QC 

SAS Forecast Server 

SAS Econometrics 

SAS/OR 

SAS/ACCESS 

SAS Enterprise Miner High-Performance Procedures 
SAS/Genetics 

Base SAS High-Performance Procedures 
SAS Data Quality Server 

SAS Optimization 

SAS Risk Dimensions 

SAS LASR Analytic Server 
SAS/FSP 

SAS Cloud Analytic Services 
SAS OLAP Server 

SAS Text Miner 

SAS Integrationn Technologies 
SAS High-Performance Risk 
SAS/CONNECT 

SAS/SHARE 

SAS Visual Forecasting 
SAS/AF 

SAS OPTGRAPH Procedure 
SAS/GIS 

SAS/MDDB Server 

SAS/IML 

SAS/IntrNet 


0 20 40 60 80 100 
18-42. SAS 核心 产品 的 过 程 步 


33 个 核心 产品 的 结构 关系 图 如 图 18-43 所 示 ， 其 中 黑体 部 分 为 分 析 PROC 过 程 步 数 
量 排名 前 10 的 SAS 产品 ， 而 下 划 线 部 分 为 SAS 的 核心 基础 产品 。 


r TTT N 
* SAS Optimization * SAS Visual Data Mining 
* SAS/FSP * SAS Econometrics and Machine Learnig 
. — |. : ia 
SAS/AF . SAS Risk Dimenions SAS Visual Statistics 
* SAS Text Miner * SAS Visual Forecasting 


* SAS Forecast Server " g 
SAS/OR - SAS/MDDB Server SAS Cloud Analytic Services 


* SAS/IML - SAS OLAP Server * SAS LASR Analytic Server 

* SAS/QC * SAS High-Performance Risk 
* SAS/GRAPH win : x 

* SAS/ETS - SAS/STAT * SAS Enterprise Miner High- 

* SAS/Genetics Performance Procedures 

* SAS/GIS * Base SAS High-Performance 

* SAS OPTGRAPH Procedure | | * BASE SAS Procedures 

* SAS/ACCESS * SAS/CONNECT * SAS/Integration Technologies) 

* SAS/SHARE * SAS/IntrNet * SAS Data Quality Server 


图 18-43 SAS 核心 产品 结构 关系 
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18.5.1 SAS 核 心 产 品 功能 简介 


下 面 列 出 了 它们 的 主要 功能 和 角色 。 理 解 它们 对 于 帮助 理解 SAS 产品 家 族 各 部 分 之 
间 的 相互 关系 具有 重要 意义 。 

(1) Base SAS — Æ SAS 所 有 分 析 产 品 的 基础 和 核心 ， 它 为 数据 分 析 提 供 可 伸缩 
的 集成 软件 环境 ， 覆 盖 数 据 访 问 、 变 换 和 报告 等 功能 。 它 包括 SAS 编程 语言 、 数 据 操 
作 、 信 息 的 存储 和 解析 、 描 述 性 统计 和 报告 编写 等 。 同 时 ， 它 也 提供 SAS 宏 来 减少 编 
程 的 时 间 和 维护 成 本 。 具体 形式 上 它 包括 数据 步 CDATAO 语言 、 过 程 步 (PROC) 、 
DS2 语言 、FedSQL 语言 、SAS 宏 、 输 出 交付 系统 (ODS) 和 ODS 图 形 等 。 

最 新 的 Base SAS 产品 还 提供 访问 SAS Cloud Analytics Service (CAS) 和 SAS Viya 
平台 的 能 力 。 在 支持 CAS 服务 器 的 SAS 运行 会 话 中 ， 除了 支持 传统 的 DATA 步 和 
PROC 步 外 ， 还 可 通过 PROC CAS 用 CASL 语言 编写 CAS 动作 把 数据 加 载 到 CAS 
服务 器 上 ， 或 者 将 CAS 数据 表 保 存 到 分 布 式 运 行 环境 上 。 CAS 服务 器 上 可 运行 
SAS 新 一 代 的 Viya 分 析 过 程 步 以 及 CAS 服务 器 管理 过 程 步 。 对 于 提交 的 DATA 步 
语言 ， 如 果 它 包含 不 能 运行 在 CAS 服务 器 上 的 代码 ， 该 数据 步 会 智能 地 运行 在 SAS 
运行 环境 中 ; 有 些 基础 过 程 步 如 MEANS、SUMMARY、REPORT、TABULATE、 
TRANSPOSE 和 COPY 支持 在 CAS 服务 器 上 运行 。CAS 服务 器 也 支持 运行 PROC 
DS2 代码 ， 并 支持 PROC FEDSQL 过 程 步 提交 SQL 语言 到 CAS 服务 器 上 执行 查询 和 
表 关 联 功 能 。 

(2) SAS/GRAPH - 为 企业 提供 全 方位 的 商业 数据 可 视 化 呈现 能 力 ， 灵 活 而 精细 的 
图 形 图 表 控 制 和 结果 呈现 能 力 ， 为 企业 用 户 的 决策 过 程 提供 丰富 而 有 意义 的 视觉 体验 。 
SAS/GRAPH 提供 几乎 所 有 的 图 形 图 表 绘 制 ， 也 提供 强大 的 自 定义 功能 。 

(3) SAS/STAT - 提供 企业 所 需 的 各 种 数据 分 析 统 计 和 专业 领域 的 统计 功能 ， 从 
1972 年 首次 发 布 SAS/STAT 72 版 本 至 今 已 经 发 展 了 45 年 ， 是 全 球 首届 一 指 的 全 功能 商 
业 统计 包 。2017 年 9 月 最 新 发 布 的 14.3 (SAS 9.4M5) 新 增 CAUSALMED 过 程 步 ， 并 对 
一 系列 过 程 步 进行 增强 ， 包 括 GAMPL、FREQ、IRT、NLMIXED、MCMC、PHREG、 
QUANTREG、QUANTSELECT 和 TIEST。 每 个 过 程 步 都 包含 了 极为 丰富 的 参数 和 选项 
控制 ， 提 供 一 致 或 类 似 的 访问 接口 。 

(4) SAS/ACCESS - 通过 实现 DBMS 数据 库 厂 商 的 API 或 语言 接口 , 或 者 通过 
DBMS 厂商 或 第 三 方 的 ODBC 驱动 实现 在 SAS 中 对 各 种 数据 库 /数据 源 的 访问 。 它 
通过 3 个 核心 PROC 步 来 实现 广泛 的 数据 访问 : IMPORT/EXPORT/METALIB。 它 提 
ft 25 种 数据 库 访问 接口 以 及 元 数据 访问 接口 ， 包 括 通用 的 ODBC, OLE DB 接口 以 及 
Oracle. Microsoft SQL Server, MySQL. Hadoop, Teradata, Greenplum 等 主流 数据 
库 厂 商 。 

(5) SAS/SHARE - 为 SAS 提供 多 用 户 的 客户 服务 器 运行 环境 ， 支 持 多 用 户 的 服 
务 器 能 为 本 地 用 户 或 远程 用 户 在 企业 环境 下 提供 对 SAS 数据 的 并 发 更 新 。 服 务 器 在 为 
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远程 用 户 读 取 数 据 时 提供 低 开销 的 网 络 连 接 ， 并 支持 对 第 三 方 DBMS 产品 的 联合 数据 
访问 。 

(6) SAS/CONNECT -将 网 络 中 不 同 操作 系统 的 计算 机 连接 起 来 ， 有 效 分 发 计算 负 
载 到 网 络 中 的 各 计算 机 来 达到 并 行 处 理 的 效果 。 

(7) SAS/IntrNet — 用 来 开发 企业 Web 应 用 开发 接口 ， 访 问 后 台 的 SAS 产品 功能 。 
其 核心 部 件 “应 用 分 发 器 ”是 基于 CGI 技术 开发 的 Web 网 关 ， 它 可 以 接受 来 自 客 户 端 
浏览 器 的 调用 请 求 ， 对 后 台 等 待 的 SAS 会 话 进行 调用 和 返回 。 

(8) SAS Integration Technologies - 提供 创建 以 访问 SAS 服务 器 功能 作为 后 台 的 分 
布 式 企业 应 用 所 需 的 各 种 服务 , 包括 应 用 消息 、BI WEB. 服务 、 目 录 服 务 、JMX、 负载 均衡 、 
单 点 登录 、 发 布 框架 、 存 储 过 程 和 Web 基础 设施 平台 等 企业 应 用 基础 服务 。 

(9) SAS/IML - 为 程序 员 ， 统 计 学 家 和 研究 人 员 在 SAS 中 使 用 强大 灵活 的 交 
互 式 矩 阵 编程 语言 IML 提供 可 能 ， 人 允许 在 SAS 语言 中 操纵 数据 和 统计 分 析 ， 然 后 用 
SAS/IML 语言 做 更 加 专业 化 的 分 析 和 探索 。 

(10) Base SAS High Performance Procedures — 是 SAS 专门 为 高 性 能 分 布 式 分 析 
服务 器 新 开发 的 基础 过 程 步 ， 包 括 HPBIN, HPCORR, HPDMDB, HPDS2, HPIMPUTE, 
HPSAMPLE, HPSUMMARY 7 个 过 程 步 。 这 些 高 性 能 分 析 过 程 步 可 以 运行 在 单机 环境 模 
式 ， 也 可 以 运行 在 分 布 式 模式 中 ， 但 后 者 要 求 有 相应 的 高 性 能 分 析 产 品 授权 。 

(11) SAS LASR Analytic Server — 是 SAS 大 数据 时 代 的 内 存 分 析 服 务 器 ， 它 为 从 
分 布 式 计算 环境 中 加 载 到 内 存 中 的 数据 提供 安全 的 多 用 户 并 发 访问 。SAS LASR Analytic 
Server 分 布 式 环境 中 各 个 节点 内 存 对 客户 端 而 言 就 像 是 一 块 连续 的 内 存 ， 磁 盘 上 的 数据 
被 持久 化 到 分 布 式 内 存 后 ， 所 有 的 数据 访问 都 是 内 存 中 进行 ， 从 而 能 够 对 数据 提供 迅捷 
的 分 析 操 作 。 通 过 避免 反复 的 数据 加 载 和 卸载 操作 ， 它 能 够 对 海量 数据 提供 秒 级 访问 。 
LASR 服务 器 上 的 数据 是 只 读 且 无 状态 的 ，LASR 服务 器 是 一 个 内 存 分 析 平 台 ， 而 不 是 
一 个 分 布 式 内 存 数据 库 。 

(12) SAS Cloud Analytic Services — 是 SAS 2016 年 推出 的 支持 部 署 在 云端 的 高 性 
能 分 布 式 数据 管理 和 分 析 运 行 环境 。SAS 是 全 球 分 布 式 并 行 计 算 领 域 的 先驱 和 领导 
者 ， 而 CAS 云 分 析 服 务 是 SAS 从 1972 年 至 今 ， 经 过 MVA、TK、IN-DATABASE 
& HPA、LASR 等 各 种 计算 架构 演进 后 的 最 新 发 明 ， 它 是 数据 模式 和 分 析 逻 辑 达 到 最 
佳 平衡 的 分 布 式 内 存 计算 环境 。SAS CAS 云 分 析 服 务 支 持 对 亿 行 数据 在 亚 秒 级 的 实 
时 数据 分 析 。 

SAS 中 各 核心 产品 的 PROC 按照 字母 顺序 排序 如 表 18-3 所 列 。 黑 体 表示 支持 UNIX 
平台 ， 和 斜体 表示 支持 Windows 平台 ， 下 划 线 表示 支持 z/OS, 否则 表示 支持 任意 操作 系统 
平台 。 


第 18 章 统计 学 基础 


表 18-3 ”核心 产品 过 程 步 索 引 
Base SAS (95) 
APPEND AUTHLIB CALENDAR CATALOG CDISC CHART CIMPORT 
COMPARE CONTENTS CONVERT COPY CORR CPORT DATASETS 
DATEKEYS DBCSTAB DELETE DISPLAY DOCUMENT DS2 DSTODS2 
EXPLODE EXPORT FCMP FEDSQL FMTC2ITM FONTREG FORMAT FORMS 
FREQ FSLIST GROOVY HADOOP HDMD HTTP IMPORT INFOMAPS 
ITEMS JAVAINFO JSON LOCALEDATA LUA MEANS METADATA 
METALIB METAOPERATE MIGRATE ODSLIST ODSTABLE ODSTEXT 
OPTIONS OPILOAD OPTSAVE PDS PDSCOPY PLOT PMENU PRESENV 
PRINT PRINTTO PROTO PRIDEF PRIEXP PWENCODE QDEVICE RANK 
REGISTRY RELEASE REPORT S3 SCAPROC SCOREACCEL SGDESIGN 
SGMAP SGPANEL SGPLOT SGRENDER SGSCATTER SOAP SORT SOURCE SQL 
SQOOP STANDARD SIREAM SUMMARY TABULATE TAPECOPY TAPELABEL 
TEMPLATE: TIMEPLOT TRANSPOSE TRANTAB UNIVARIATE XSL 
SAS/STAT (100) 
ACECLUS ADAPTIVEREG ANOVA BCHOICE BOXPLOT CALIS 
CANCORR CANDISC CATMOD CAUSALMED CAUSALTRT CLUSTER 
CORRESP DISCRIM DISTANCE FACTOR FASTCLUS FMM GAM GAMPL 
GEE GENMOD GLIMMIX GLM GLMMOD GLMPOWER GLMSELECT 
HPCANDISC HPFMM HPGENSELECT HPLMIXED HPLOGISTIC 
HPMIXED HPNLMOD HPPLS HPPRINCOMP HPQUANTSELECT HPREG 
HPSPLIT ICLIFETEST ICPHREG INBREED IRT KDE KRIGE2D LATTICE 
统计 分 析 模 块 |LIFEREG LIFETEST LOESS LOGISTIC MCMC MDS MI MIANALYZE 
MIXED MODECLUS MULTTEST NESTED NLIN NLMIXED NPARIWAY 
ORTHOREG PHREG PLAN PLM PLS POWER PRINCOMP PRINQUAL 
PROBIT PSMATCH QUANTLIFE QUANTREG QUANTSELECT REG 
ROBUSTREG RSREG SCORE SEQDESIGN SEQTEST SIM2D SIMNORMAL 
SPP STDIZE STDRATE STEPDISC SURVEYFREQ SURVEYIMPUTE 
SURVEYLOGISTIC SURVEYMEANS SURVEYPHREG SURVEYREG 
SURVEYSELECT TPSPLINE TRANSREG TREE TTEST VARCLUS 
VARCOMP VARIOGRAM 
SAS/GRAPH (23) 
G3D G3GRID GANNO GAREABAR GBARLINE GCHART GCONTOUR 


形 图 表 GDEVICE GEOCODE GFONT GINSIDE GKPI GMAP GOPTIONS GPLOT 
GPROJECT GRADAR GREDUCE GREMOVE GREPLAY GSLIDE GTILE 
MAPIMPORT 


SAS Forecast Server (13): HPF HPFARIMASPEC HPFDIAGNOSE HPFENGINE 
HPFESMSPEC HPFEVENTS HPFEXMSPEC HPFIDMSPEC HPFRECONCILE 
多 维 与 预测 HPFREPOSITORY HPFSELECT HPFTEMPRECON HPFUCMSPEC 
SAS/MDDB Server (1): MDDB 

SAS OLAP Server (3): OLAP OLAPCONTENTS OLAPOPERATE 

SAS Risk Dimensions (6): AGGREGATION COMPILE RDC RDPOOL RDSEC 
风险 与 文本 RISK 

SAS Text Miner (3): HPBOOLRULE HPTMINE HPTMSCORE 
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优化 与 计量 经 济 


CEK) 
SAS Optimization (6): CLP OPTLP OPTMILP OPTMODEL OPTNETWORK 
OPTQP 
SAS Econometrics (9): CCDM CCOPULA CNTSELECT CPANEL CQLIM 
CSPATIALREG HMM SEVSELECT TSMODEL 


数据 访问 与 集成 
技术 


SAS/ACCESS (9):ACCESS CALLRFC CV2VIEW 

DB2EXT DB2UTIL DBF DBLOAD DIF QUEST 

SAS/SHARE (2): OPERATE SERVER 

SAS/CONNECT (2): DOWNLOAD UPLOAD 

SAS/IntrNet (1): APPSRV 

SAS Integration Technologies (2): IOMOPERATE STP 

SAS Data Quality Server (6): DMSRVADM DMSRVDATASVC 
DMSRVPROCESSSVC DQLOCLST DQMATCH DQSCHEME 

SAS/FSP (4): FSBROWSE FSEDIT FSLETTER FSVIEW 

SAS/AF(1) BUILD 

SAS/OR (9) : BOM CPM DTREE GA GANTT NETDRAW OPTLSO 
OPTNET PM 

SAS/IML (1): IML 

SAS/QC (14): 

ANOM CAPABILITY CUSUM FACTEX ISHIKAWA MACONTROL 
MVPDIAGNOSE MVPMODEL MVPMONITOR OPTEX PARETO 
RAREEVENTS RELIABILITY SHEWHART 

SAS/ETS (40) 

ARIMA AUTOREG COMPUTAB COPULA COUNTREG DATASOURCE 


— ETS ENTROPY ESM EXPAND FORECAST HPCDM HPCOPULA HPCOUNTREG 
HPPANEL HPQLIM HPSEVERITY LOAN MDC MODEL PANEL PDLREG 
QLIM SEVERITY SIMILARITY SIMLIN SPATIALREG SPECTRA SSM 
STATESPACE SYSLIN TIMEDATA TIMEID TIMESERIES TMODEL 
TSCSREG UCM VARMAX XI11 X12 X13 
SAS/Genetics (7): 
ALLELE BTL CASECONTROL FAMILY GENESELECT HAPLOTYPE 
HISNP PSMOOTH 
SAS/GIS (1): GIS 
SAS OPTGRAPH Procedure (1): OPTGRAPH 
SAS Visual Data Mining and Machine Learning (18) 
ASTORE BNET BOOLRULE FACTMAC FASTKNN FISM FOREST 
GRADBOOST GVARCLUS MBANALYSIS MWPCA NETWORK NNET 
RPCA SVDD SVMACHINE TEXTMINE TMSCORE 

可 视 化 分 析 与 机 器 | SAS Visual Statistics (20) 
学 习 ASSESS BINNING CARDINALITY CORRELATION FREQTAB GAMMOD 


GENSELECT KCLUS LOGSELECT NLMOD PARTITION PCA PHSELECT 
PLSMOD QTRSELECT REGSELECT SPC TREESPLIT VARIMPUTE 
VARREDUCE 

SAS Visual Forecasting (2): TSINFO TSRECONCILE 
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CEK) 
SAS Cloud Analytic Services (3): CAS CASUTIL MDSUMMARY 
SAS LASR Analytic Server (5): IMSTAT IMXFER LASR RECOMMEND 
VASMP 
SAS High-Performance Risk (2): HPEXPORT HPRISK 


SAS Enterprise Miner High-Performance Procedures (8): 

HP4SCORE HPBNET HPCLUS HPDECIDE HPFOREST HPNEURAL 
HPREDUCE HPSVM 

Base SAS High-Performance Procedures (7): 

HPBIN HPCORR HPDMDB HPDS2 HPIMPUTE HPSAMPLE HPSUMMARY 


18.5.2 Base SAS 过 程 步 速 查 


本 节 内 容 为 笔者 根据 数据 分 析 中 使 用 频率 而 整理 的 全 部 Base SAS 过 程 步 说 明 ， 共 
95 个 ， 供 读者 快速 参考 之 用 。 具 体 每 个 PROC 都 包含 大 量 的 参数 和 语句 ， 使 用 时 还 需 查 
看 联机 帮助 或 手册 进行 。Base SAS 过 程 步 覆 盖 的 功能 包括 : 基础 操作 、 数 据 导入 导出 、 
功能 扩展 、 系 统 集成 、 图 形 图 表 、 基 础 分 析 、 输 出 管理 、 环 境 管理 、 元 数据 管理 和 z/OS 
大 型 机 特定 功能 。 从 系统 功能 扩展 角度 看 ，Base SAS 各 模块 之 间 的 结构 关系 如 图 18-44 
所 示 。 


. 环境 管理 其 他 PROC 过 程 步 
e 元 数据 管理 
* 数据 导入 导出 DSTODS2 | 
FCMP 
。 系 统 集成 功 | STREAM DATA RUN_MACRO 
- 功能 扩展 5: o RUN SASFILE 
“ z/OS 特定 功能 | 展 (MACRO JAVAOBJ ODSOUT 
【= 
%INCLUDE 
E —— 
- 图 形 图 表 全 局 语句 
“ 基础 分 析 系统 函数 
* 输出 管理 CALL EXECUTE 


图 18-44 Base SAS 各 模块 之 间 的 结构 关系 


1. 基础 操作 PROC 


A) CONTENTS 显示 数据 集 的 内 容 ， 并 打印 SAS 逻辑 库 的 目录 。 

(2) DATASETS 管理 各 种 SAS 文件 的 工具 过 程 步 ， 包 括 数据 集 的 复制 、 重 命名 、 
修复 、 删除 等 , 也 包括 追加 数据 集 和 索引 ,以 及 列 出 数据 集 属性 口令 等 信息 。 

G) APPEND 将 观测 从 一 个 数据 集 追 加 到 另 一 个 数据 集 的 末尾 。 

(4) COPY 将 一 个 或 多 个 数据 集 从 一 个 SAS 逻辑 库 拷贝 到 另 一 个 SAS 逻辑 库 ; 
该 过 程 步 支持 顺序 数据 访问 类 型 的 SAS 逻辑 库 。 
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(5) DELETE 删除 SAS 逻辑 库 的 成 员 ， 成 员 可 以 包括 永久 或 临时 SAS 文件 ， 以 
及 加 载 到 CASLIB 中 的 CAS 表 。 该 过 程 步 可 批量 删除 数据 集 ， 或 按 成 员 类 
型 进行 删除 等 。 

(6) COMPARE 比较 两 个 数据 集 的 内 容 ， 或 对 来 自 不 同 数据 集 ， 或 者 同一 数据 
集 的 变量 进行 比较 。 

(7) CATALOG 管理 SAS 目录 册 的 过 程 步 ， 包 括 创 建 Catalog， 复 制 或 选择 条 目 
入 口 ， 重 命名 、 交 换 与 删除 条 目 ， 修 改 或 删除 条 目 入 口 的 描述 文本 等 。 该 
过 程 步 是 一 个 交互 式 语句 驱动 的 过 程 步 。 

(8) REGISTRY 管理 SAS 注册 表 的 过 程 步 ， 包 括 SASHELP 逻辑 库 中 的 系统 注 
册 表 和 SASUSER 逻辑 库 中 的 用 户 注 册 表 。 包 括 导 入 / 导出， 比较 删除 以 及 
和 卸载 注册 表 文 件 等 注册 表 操 作 。 

(9) FORMAT 创建 用 户 自 定义 输入 /输出 格式 。 可 将 输入 /输出 格式 存储 为 
SAS 数据 集 ， 或 从 SAS 数据 集中 加 载 用 户 自 定义 的 输入 / 输出 格式 。 

(10) FMT2ITM 将 一 个 或 多 个 存储 SAS 格式 信息 的 SAS CATALOG 转换 为 CAS 
中 可 用 的 单个 ITEMSTORE 文件 ， 它 是 将 传统 SAS 格式 信息 导入 到 CAS 服 
务 器 上 进行 重用 的 唯一 方法 。 

(11) DATEKEYS 用 于 时 间 序 列 中 需要 用 名 字 来 引用 日 期 时 ， 处 理 单个 日 期 或 
者 一 组 日 期 变量 ， 可 用 于 标记 日 期 键 值 有 关 的 时 间 区 间 ， 也 可 标记 假期 和 
销售 活动 等 。 

(12? PWENCODE 对 口令 进行 编码 或 者 将 文本 数据 进行 混淆 ， 该 混淆 是 一 个 并 非 
基于 私 钥 的 可 逆 操 作 。 比 如 要 在 SAS 代码 中 需要 提供 口令 访问 关系 型 数据 库 ， 
SAS/CONNECT, SAS/SHARE, SAS IOM 或 SAS Metadata 服务 器 等 对 象 时 ， 可 
用 此 过 程 步 把 访问 口令 加 密 后 放 在 SAS 代码 ， 可 避免 密码 泄露 和 遗失 。 

(13) FSLIST 在 SAS 会 话 环境 中 浏览 非 SAS 数据 集 格式 的 外 部 文件 ， 可 用 于 检 
查 文件 内 容 或 者 从 FSLIST 窗口 中 复制 文本 到 SAS 程序 窗口 中 。 


2. 数据 导入 导出 PROC 


(D EXPORT 从 SAS 数据 集中 读 入 数据 ， 导 出 到 外 部 数据 源 。 从 SAS 9.4 版 本 
开始 支持 导出 为 空格 /逗号 /TAB 分 隔 符 的 文件 和 JMP 文件 。 

(2) IMPORT 从 外 部 数据 源 导 入 数据 生成 SAS 数据 集 。 从 SAS 9.4 开始 支持 导 
入 分 隔 符 文件 和 JMP 文件 。 

(3) CONVERT 将 BMDP, OSIRIS 系统 文件 或 者 SPSS 导出 文件 转化 为 SAS 数 
据 集 。 

(4) CPORT 将 SAS 逻辑 库 ，SAS 数据 集 以 及 SAS Catalog 导出 到 顺序 文件 格式 
的 迁移 文件 (Transport 文件 ) 文件 中 。 

(5) CIMPORT 导入 由 CPORT 过 程 步 导 出 的 迁移 文件 (Transport 文件 ), 迁移 
文件 可 包含 SAS 逻辑 库 、SAS 数据 集 以 及 SAS Catalog 等 SAS 对 象 。 
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(6) CDISC 用 ODM 语句 导入 /导出 符合 CDISC ODM 12 规范 的 XML 文档 ， 
或 者 对 一 个 符合 CDISC SDTM 3.1 规范 的 SAS 数据 集 ， 根 据 CDISCSDTM 
领域 定义 执行 数据 内 容 校 验 。 

(7) SQOOP 使 用 Apache Sqoop 在 Hadoop 和 关系 型 数据 库 管理 系统 (RDBMS) 
之 间 传 输 数 据 ， 也 可 在 SAS 会 话 中 使 用 SQOOP 过 程 步 访 问 Apache 
Sqoop 以 在 一 个 数据 库 和 HDFS 之 间 传 输 数据 ， 从 而 实现 从 SAS 应 用 中 用 
ApacheOozie Workflow Scheduler for Hadoop 提交 Sqoop 命令 到 Hadoop 集群 
上 。 该 过 程 步 为 Sqoop 任务 定义 Oozie 工作 流 ， 然 后 使 用 RESTful API 提交 
到 Oozie 服务 器 。 

(8) SCOREACCEL 为 DATA 步 和 DS2 模型 发 布 和 评分 提供 CAS 服务 器 接口 。 
模型 可 以 被 发 布 到 CAS 或 外 部 数据 库 上 执行 。 也 能 从 CAS 中 发 布 模型 代 
码 到 一 个 外 部 数据 库 上 后 以 SAS Embedded Process (EP) 方式 执行 。 它 支持 
Teradata 和 Hadoop 。 发 布 DATA 步 模 型 代码 时 该 过 程 步 会 自动 翻译 为 DS2 
代码 来 执行 。 

(9) MIGRATE 将 SAS 逻辑 库 中 的 成 员 迁 移 到 当前 SAS 版 本 中 ， 包 括 数据 集 、 
数据 视图 、CATALOG、ITEMSTORE 和 多 维 数据 库 MDDB 等 ， 但 该 过 程 步 
不 支持 编译 后 存储 的 DATA 步 和 SAS 宏 ，SAS 程序 代码 以 及 SPD (Scalable 
Performance Data) 引擎 数据 集 。 


3. 功能 扩展 PROC 


(1)FCMP 函数 编译 器 (Function Compiler) 过 程 步 用 来 创建 , 测试 和 存储 SAS 函数 ， 
CALL 例 程 和 子 例 程 ， 该 函数 可 用 于 DATA 步 和 诸多 PROC 步 中 。FCMP 3 
用 的 语法 与 DATA 步 稍 有 不 同 ， 编 译 输出 为 SAS 数据 集 格式 。FCMP 允许 创 
建 可 重用 的 函数 或 例 程 进行 复杂 的 读 写 操 作 。FCMP 过 程 步 使 用 SAS 语言 编 
译 器 进行 编译 和 执行 ， 编 译 子 系统 生成 机 器 代码 运行 。 如 指定 代码 生成 优化 
选项 CMPOPT 可 优化 机 器 语言 代码 执行 效率 。FCMP 函数 可 用 于 DATA 步 ， 
WHERE 语句 ，ODS 子 系 统 以 及 这 些 过 程 步 中 : CALIS、OPTMODEL、 
FORMAT, PHREG、GA、QUANTREG、GENMOD、 REPORT ( 仅 COMPUTE 块 )、 
GLIMMIX、MCMC、SEVERITY、MODEL、SIMILARITY、NLIN、SQL ( 仅 支 
持 不 带 数组 参数 的 函数 )、NLMIXED、SURVEYPHREG、NLP、VARMAX、 
OPTLSO 和 SAS Risk Dimensions 过 程 步 。 

(2) PROTO 让 用 户 能 够 以 批 处 理 模式 注册 C/C ++ 编写 的 外 部 函数 。 这 样 就 可 
以 在 SAS 代码 中 调用 C/C++ 函数 、 数 据 结 构 和 类 型 。 一 旦 C 语言 函数 在 
PROC PROTO 中 注册 后 ， 它 们 可 以 在 FCMP 过 程 步 的 函数 或 子 例 程 中 被 调 
用 ， 也 可 以 在 COMPILE 过 程 步 的 函数 、 子 例 程 以 及 方法 块 中 被 调用 。 

(3) DS2 使 用 户 能 在 Base SAS 会 话 中 编写 DS2 代码 ， 支 持 SAS 9.4 和 SAS 
Viya。 适 用 于 高 级 数据 操作 ， 支 持 变量 作用 域 ， 自 定义 方法 ，ANSI SQL 数 
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据 类 型 和 自 定义 包 (对 象 ) 等 。DS2 过 程 步 的 SET 语句 支持 嵌入 FedSQL 
语法 ， 从 而 在 运行 时 能 在 DS2 和 所 支持 的 数据 库 间 动态 交换 数据 。DS2 可 
支持 与 SAS 服务 器 ，DBMS 数据 源 以 及 CAS 服务 器 等 类 型 。 

(4) Lua 允许 在 SAS 代码 中 运行 Lua 编程 语言 代码 ， 甚 至 外 部 Lua 脚本 文件 。 
在 Lua 语句 中 可 调用 大 部 分 SAS 函数 和 FCMP 函数 ， 也 可 以 在 Lua 代码 中 
提交 SAS 代码 运行 ，Lua 中 也 可 以 调用 CAS 动作 和 读 取 VARCHAR 数据 。 

GE: Lua 典 入 式 脚 本 语言 可 运行 在 任何 有 标准 C 编译 器 的 平台 上 ， 包 括 所 
有 的 UNIX、Windows、 移 动 操作 系统 Android. iOS 等 。 它 具有 语法 简单 、 
计算 快速 和 自动 内 存 管理 等 特性 。) 

(5) GROOVY 在 SAS 代码 中 利用 Java 虚拟 机 上 执行 Goovy 动态 语言 代码 ， 
可 将 Groovy 语句 解析 为 Groovy 类 对 象 并 运行 ， 这 些 对 象 在 其 他 PROC 
GROOVY 语句 或 对 DATA 步 中 的 Java Obj 对 象 可 见 。 

(6) STREAM 可 处 理 包 含 SAS 宏 规 范 的 任意 文本 输入 流 ， 其 中 的 宏 被 展开 和 执 
行 , 而 其 他 文本 则 保留 不 变 。 输 出 流 可 发 送 到 一 个 外 部 文件 或 SAS 输出 目标 。 

(7) SCAPROC 是 SAS 代码 分 析 器 (Code Analyzer) 过 程 步 ， 它 从 一 个 SAS 作 
业 中 捕获 输入 输出 和 宏 符 号 等 信息 ， 将 它 写 入 到 某 个 指定 的 文件 中 ;也 可 
生成 在 网 格 环境 上 可 并 行 执行 的 作业 。 它 也 可 以 在 命令 行 启动 SAS 作业 时 
通过 -initstmt "proc scaproc; record 'myjob.txt'; run;" 启动 SAS 代码 分 析 器 。 

(8) DSTODS2 将 DATA 步 程序 转换 为 DS2 代码 以 使 用 DS2 语言 的 更 多 优良 特 
性 ， 其 输入 输出 为 程序 源 代码 ， 此 过 程 不 支持 z/OS 操作 系统 。 


4. 系统 集成 PROC 


(1) SQL 可 在 SAS 代码 中 嵌入 SQL 语句 操纵 数据 ， 它 可 连接 到 DBMS 提交 查 
询 和 非 查 询 SQL 语句 ， 不 支持 CAS 服务 器 。 

(2) FEDSQL 允许 在 Base SAS 会 话 中 提交 FedSQL 语言 代码 到 服务 器 上 执行 ， 
它 符 合 ANSI SQL:1999 核心 规范 ， 支 持 扩 展 数据 类 型 DECIMAL/INTEGER/ 
VARCHAR 以 及 其 他 ANSI 1999 核心 规范 兼容 的 专属 扩展 。FedSQL 提供 的 
数据 访问 技术 支持 伸缩 性 ， 多 线程 和 高 性 能 的 访问 方式 ， 还 可 跨 多 个 数据 源 
访问 , 管理 和 共享 关系 型 数据 。 当 数据 量 很 大 时 它 默 认 支 持 多 线程 优化 算法 。 
FedSQL 是 与 厂商 无 关 的 SQL 实现 ， 兼 容 各 种 数据 库 和 数据 源 厂商 ， 它 支持 
SAS 服务 器 ，DBMS 数据 源 和 CAS 服务 器 (从 9.4M5 开始 ) 。 最 大 的 优点 是 
单个 FedSQL 查询 可 从 多 个 数据 源 读 取 数据 ， 返 回 单个 结果 集 。 

G) HTTP 发 送 HTTP 协议 请 求 ， 不 但 支持 标准 HTTP 方 法 还 支持 任何 
HTTP/1.1 标准 的 方法 ， 包 括 持久 化 链接 、Cookie 缓冲 、EXPECT 100_ 
CONTINUE 支持 和 身份 验证 类 型 等 特性 。 它 通过 文件 引用 发 送 字符 数据 或 
者 通过 HEADERS 语句 发 送 名 值 对 ， 甚 至 是 外 部 格式 化 文件 。 该 过 程 步 让 
SAS 是 读 取 网 络 数据 的 众多 方式 之 一 。 
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(4) XSL 将 XML 文档 从 一 种 形式 变换 为 另 一 形式 ， 如 HIML， 文 本 文件 或 其 
他 XML 文档 类 型 。 它 读 入 一 个 XML 文档， 根据 XSL 风格 表单 〈Extensible 
Stylesheet Language) 进行 XML 数据 变换 ， 并 输出 到 另 一 个 文件 。 它 使 用 
Saxson-EE 9.3 标准 处 理 XML 文件 ，XSLT 处 理 器 则 实现 了 XSLT 2.0 标准 。 

(5) SOAP 用 于 处 理 Web 服务 的 调用 接口 ， 它 从 一 个 文件 读 取 XML 输入 ， 并 将 
XML 输出 到 另 一 个 文件 引用 。 一 个 服务 请 求 相 关 的 SOAP 消息 XML 文 
档 会 被 作为 文件 引用 内 容 的 一 部 分 ， 它 输入 的 XML 可 为 SOAPEnvelope 
元 素 或 SOAPEnvelope 内 调用 Web 服务 的 元 素 ， 是 SAS 中 调用 Web 服务 的 
接口 。 

(6) JSON 过 程 步 是 JSON 文件 格式 处 理 接口 ， 允 许 将 SAS 数据 集中 的 数据 输出 
到 外 部 JSON 文件 ， 它 可 控制 输出 格式 ， 也 可 以 输出 额外 的 数据 到 外 部 文件 
和 控制 JSON 容器 。 

(7) HADOOP 通过 执行 ApacheHadoop 代码 跟 Hadoop 数据 进行 交互 ，Apache 
Hadoop 是 Java 开发 的 分 布 式 海量 数据 存储 和 处 理 的 开源 框架 。 它 可 以 
和 Hadoop 内 控制 集群 节点 上 的 作业 控制 服务 Hadoop Job Tracker 打交道 。 
HADOOP 过 程 步 可 从 SAS 语言 中 提交 HDFS 命令 、MapReduce 程序 以 及 
Pig 语言 代码 。 

(8) INFOMAPS 用 于 程序 化 创建 Information Map， 包 括 对 现 有 的 Information 
Map 增加 新 的 数据 源 、 数 据 项 、 过 滤器 、 文 件 夹 和 关系 等 ， 也 可 改变 一 个 
Information Map 中 现 有 除数 据 源 以 外 的 所 有 元 素 的 定义 。 

(9) HDMD 为 存储 在 HDFS 文件 系统 上 的 文件 生成 描述 其 内 容 的 XML 元 数据 ， 
这 样 SAS/ACCESS HADOOP 接口 和 HPA 过 程 步 在 不 依赖 于 其 他 元 数据 储 
TFE Chl Hive) 的 元 数据 就 能 直接 读 取 Hadoop 数据 。 

(10) S3 执行 Amazon S3 平台 上 的 对 象 管理 ， 比 如 创建 Buckets 并 将 文件 加 入 ， 

SAS 支持 文件 和 目录 对 象 类 型 。 它 需要 AWS Key ID 或 安全 令 牌 。 当 数据 
大 于 5 MB 时 SAS 会 启动 额外 的 线程 以 提供 更 快 的 并 行 传输 速度 。 
5. 图 形 图 表 PROC 

G) CHART 生成 简单 的 垂直 和 水 平 条 形 图 、 饼 图 、 星 图 ， 可 用 于 数值 或 字符 型 。 
需要 控制 字体 颜色 时 应 该 使 用 SAS/GRAPH 产品 的 GCHART 生成 各 种 颜色 和 
字体 的 图 表 。 

(2) PLOT 将 每 个 观测 的 两 个 变量 进行 简单 投 点 〈 如 plot x «y; ) 生成 简单 的 
图 形 图 表 。 

(3) TIMEPLOT 在 时 间 区 段 上 投影 一 个 或 多 个 变量 〈 垂 直 轴 为 时 间 ， 水 平 轴 为 
观测 值 ) 形成 简单 的 与 时 间 有 关 的 投 点 图 。 

(4) CALENDAR 以 日 历 格式 显示 数据 集中 的 数据 ， 可 生成 计划 日 历 或 汇总 日 历 。 
包含 一 些 项 目 管理 调度 工具 有 关 的 特性 。 
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(5) EXPLODE 为 文本 输出 文 类 似 于 ASC 开 艺术 的 字符 矩阵 ， 提 供 空格 、 字 符 
密度 以 及 下 划 线 控制 等 选项 。 
(6) SGPLOT 创建 一 个 或 多 个 投 点 图 并 将 它们 堆 县 在 相同 的 坐标 轴 上 ， 包 括 直 
方 图 、 回 归 投 点 图 等 。 它 具有 极其 丰富 的 语句 可 以 绘制 各 式 各 样 的 图 形 。 
(7) SGSCATTER 创建 多 面板 的 散 点 图 ， 也 支持 在 散 点 图 上 对 点 进行 拟 合 ， 以 
及 绘制 椭圆 曲线 等 。 
(8) SGMAP 地 图 处 理 过 程 步 ， 它 融合 了 SAS/GRAPH 过 程 步 GPROJECT, 
BASE 过 程 步 GEOCODE 和 MAPIMPORT 等 过 程 步 的 数据 操作 能 力 和 ODS 
Graphics 的 功能 ， 它 可 创建 地 图 并 在 上 面 登 加 文本 ， 散 点 及 泡 泡 图 等 。 
(9) SGPANEL 可 根据 一 个 或 多 个 分 类 变量 创建 图 形 单元 面板 ， 比 如 绘制 一 组 网 
格 状 排列 的 投 点 图 。 它 是 对 图 形 进行 面板 控制 的 主要 过 程 步 。 
(10) SGDESIGN 基于 一 个 或 多 个 输入 数据 集 以 及 一 个 用 户 自 定义 ODS 图 形 
设计 器 文件 (SGD 文件 ) 生成 图 形 输出 ，SGD 文件 由 SAS 的 ODS 图 
形 设计 器 应 用 程序 创建 。 如 果 SGD 文件 中 定义 了 动态 变量 ， 用 户 可 在 
SGDESIGN 过 程 步 中 用 DYNAMIC 语句 实现 基于 动态 数据 的 图 形 输出 ， 
而 不 是 SGD 文件 中 指定 的 一 个 或 多 个 数据 集 。 

(11) SGRENDER 基于 GTL 模板 语言 创建 的 模板 绘制 图 表 ， 通 常 称 为 
StatGraph。GTL 是 ODS 图 形 过 程 步 之 外 制作 任何 复杂 统计 图 和 创建 定制 
化 布局 的 强大 工具 。 它 也 可 以 基于 SAS ODS Graphics Editor 工具 输出 的 文 
件 绘 制图 形 图 表 。 


6. 基础 分 析 PROC 


(1) SORT 根据 一 个 或 多 个 变量 对 数据 进行 排序 ， 输 出 一 个 数据 集 。 

(2) RANK 基于 计算 一 个 或 多 个 数值 变量 对 记录 进行 排名 ， 且 输出 计算 结果 到 
另 一 个 数据 集 。 

(3) TRANSPOSE 转 置 数据 ， 将 数据 集中 的 行 和 列 〈 观 测 和 变量 ) 进行 旋转 。 

(4) STANDARD 数据 标准 化 过 程 步 ， 将 SAS 数据 集中 的 变量 标 标准 化 为 给 定 

均值 和 标准 差 的 数据 并 输出 。 

MEANS 汇总 数据 并 对 所 有 观测 数据 或 分 组 数据 计算 描述 性 统计 量 ， 计 算 包 

括 基于 矩 的 描述 性 统计 量 、 估 计 分 位 数 〈 包 括 中 值 ) 、 均 值 的 置信 区 间 、 

识别 极端 值 、 执 行 t 检 验 等 。 该 过 程 步 可 以 显示 输出 ， 也 可 以 使 用 OUTPUT 

语句 输出 统计 量 到 数据 集中 。 与 SUMMARY 非常 相似 。 

SUMMARY 对 数据 集中 的 所 有 观测 或 分 组 观测 计算 各 描述 性 统计 量 ， 它 是 

一 个 数据 汇总 工具 过 程 步 且 支持 CAS 环境 。 

FREQ 为 单个 变量 或 多 个 变量 生成 频数 表 和 交叉 表 。 对 2- 向 表 计 算 检 验 和 

关联 程度 的 度量 。 对 于 n- 向 表 它 计算 层 内 和 层 间 的 统计 量 来 进行 分 层 分 析 。 

TABULATE 以 表格 形式 显示 描述 性 统计 量 ， 支 持 简 单 的 显示 到 高 度 定制 化 
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的 表 型 报告 。 在 对 变量 的 数值 进行 分 类 和 建立 层次 关系 方面 具有 很 好 的 灵活 
性 ， 适 用 于 标签 和 格式 化 变量 ， 以 及 各 种 统计 量 。 它 输出 许多 与 MEANS、 
FREQ. REPORT 相同 的 描述 性 统计 量 。 

(9) UNIVARIATE 单 变量 分 析 过 程 步 ， 可 生成 各 种 统计 量 和 图 表 : 基于 矩 的 描 
述 性 统计 量 (包括 偏 度 和 峰 度 ) ， 分 位 数 和 百 分 位 数 ， 频 数 表 和 极端 值 等 ; 
也 可 输出 直方 图 (支持 拟 合 ， 概 率 密度 曲线 和 核 密度 估计 ) 、 累 积分 布 函 
数 图 CCDF) 和 各 种 概率 分 布 曲线 、 概 率 图 、Q-Q 图 、P-P 图 ， 可 用 于 比较 
数据 分 布 和 各 种 理论 分 布 的 差异 。 同 时 ， 它 还 可 输出 各 种 分 布 〈 包 括 正 态 ) 
的 拟 合 优 度 测 试 ， 在 图 表 上 媒 入 汇总 统计 量 等 。 它 还 支持 对 包含 频数 变量 
的 数据 集 进行 分 析 ， 可 将 汇总 统计 量 ， 直 方 图 区 间 和 拟 合 曲线 参数 等 数值 
输出 到 一 个 数据 集 。 

(0) CORR 计算 皮尔 逊 相关 系数 、 三 种 非 参数 关联 度量 、 多 相关 系数 以 及 与 这 
些 统 计量 相关 的 概率 。 


7. 输出 管理 PROC 


(D PRINT 选择 全 部 或 部 分 变量 ， 打 印 SAS 数据 集 或 CAS 表 中 的 观测 。 它 既 
可 以 生成 非常 简单 的 列表 ， 也 可 以 创建 高 度 定制 化 ， 对 数值 变量 数据 进行 
分 组 小 计 和 总 计 的 复杂 报表 。 

(2) PRINTTO 用 来 为 PROC 步 和 SAS 日 志 定义 默认 ODS 目标 之 外 输出 目标 。 
默认 SAS 过 程 步 输出 和 SAS 日 志 被 定向 到 默认 的 PROC 输出 文件 和 SAS 
日 志文 件 中 ， 但 PRINTTO 可 以 将 它们 输出 到 一 个 外 部 文件 或 SAS Catalog 
条 目 〈 此 时 必须 打开 ODS LISTING) ， 利 用 它 甚至 可 以 在 同一 个 SAS 进程 
中 将 前 面 的 SAS 输出 当 作 后 续 程 序 的 输入 数据 进行 处 理 。 在 Windows 环境 
中 ， 默 认 的 PROC 输出 和 SAS 日 志 输 出 目标 为 “结果 查看 窗口 ”和 “LOG 
窗口 ”， 但 在 交互 线 模式 中 ， 它 们 分 别 是 作为 报表 输入 “显示 器 ”和 显示 
每 个 步骤 执行 的 “显示 器 ”;， 而 在 非 交 互 模式 或 批 处 理 模式 中 ， 它 们 取决 
于 主机 操作 系统 和 操作 环境 。 有 时 为 了 避免 生成 大 量 的 日 志文 件 ， 可 用 此 
过 程 步 来 自 定 义 日 志文 件 格式 。 

(3) REPORT 它 合 并 了 PRINT、MEANS、TABULATE 过 程 步 和 DATA 步 众多 
模块 的 特性 为 一 体 ， 用 来 生成 一 系列 报告 ， 可 包括 明细 表 和 汇总 表 等 功能 。 

(4) FORMS 生成 信封 标签 、 邮 件 标签 、 外 部 磁带 标签 、 文 件 卡 和 其 他 任何 有 固 
定 规则 的 打印 表单 ， 数 据 集中 的 每 一 个 观测 被 打印 到 一 个 矩形 的 表格 单元 ， 
即 套 打 打印 。 

(5) DOCUMENT 过 程 步 与 ODS DOCUMENT 语句 配合 使 用 可 以 将 报告 的 单个 
元 素 (ODS 对 象 ) 进行 存储 、 修 改 并 重 放 。 本 过 程 步 可 对 PROC 步 或 单纯 
数据 库 查询 的 原始 报表 结果 进行 重 排 、 复 制 或 删除 ， 而 不 需要 重新 执行 分 
析 过 程 步 或 者 数据 库 查 询 。 
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(6) ODSLIST 用 于 创建 列表 类 模板 。 包 括 可 定制 的 文本 模板 列表 ， 可 定制 内 容 
的 风格 属性 和 格式 化 信息 。 可 通过 它 的 DATA= 选项 绑 定 数据 集 与 模板 〈 不 
需要 使 用 DATA HFEF) 。 它 主要 用 于 生成 Power Point 和 e-Books 格式 的 
ODS 目标 的 内 容 。 

(7) ODSTABLE 为 ODS 系统 创建 自 定义 的 表格 型 输出 模板 ， 可 用 于 除了 
PRINT、REPORT 和 TABULATE 过 程 步 之 外 的 所 有 过 程 步 。 它 比 PROC 
TEMPLATE 过 程 步 DEFINE TABLE 语句 生成 表格 模板 的 方法 更 加 简单 。 

(8) ODSTEXT 用 于 生成 文本 块 模板 ， 这 些 模板 使 用 风格 属性 和 Format 来 定制 
内 容 ， 用 于 创建 列表 和 段落 。 

(9) TEMPLATE 是 Base SAS 中 最 复杂 的 过 程 步 之 一 ， 主 要 包括 如 下 功能 。 

@ 定 制 表 模 板 : 用 于 定制 SAS 输出 表 的 外 观 ， 包 括 表 头 、 表 体 、 表 尾 和 列 
的 模板 风格 。 除 了 PRINT. REPORT. TABULATE 之 外 的 所 有 PROC 的 
SAS 输出 表格 风格 受 该 表格 模板 的 控制 。 

@ 定 制 交 又 表 模板 (DEFINE CROSSTABS): 用 于 定制 FREQ 输出 的 交叉 表 
外 观 ， 默 认 交 叉 表 使 用 的 是 CrossTabFreqs 模板 进行 泻 染 ， 可 通过 本 过 程 
步 创 建 定制 的 表 模板 来 改变 外 观 。 

图 创建 ODS Graphics 图 (DEFINE STATGRAPH): SAS 9.2 引入 GTL 图 形 模 
板 语 言 来 定义 清晰 有 效 的 统计 图 形 图 表 , GTL 支持 生成 各 种 各 样 的 投 点 图 ， 
模型 拟 合 图 、 分 布 图 、 比 较 图 、 预 测 图 等 。 默 认输 出 24 位 PNG 文件 ， 支 
持 抗 锯齿 和 透明 背景 。 其 核心 是 使 用 一 个 灵活 的 模板 STATGRAPH KR 
活 构建 图 表 ， STATGRAPH 也 是 用 TEMPLATE 过 程 步 来 定义 的 。 

图 创 建 Style 模板 (DEFINE STYLE) : 定制 SAS 输出 的 外 观 ， 它 可 创建 和 
修改 风格 模板 , 而 ODS 使 用 这 些 定制 模板 对 输出 图 表 和 报告 进行 格式 化 。 
回 创建 标记 语言 标签 集 ， 标 签 集 (Tagsets) 是 控制 SAS 输出 形成 标记 
语言 文件 的 模板 ， 它 可 为 ODS 指定 标记 语言 的 输出 格式 (如 XML. 

HTML, XSL 等 输出 ) ， 用 户 也 可 创建 自 定 义 的 标记 语言 标签 集 (Markup 
Language Tagsets) 。 

@ 管 理 模板 存储 : SAS 创建 的 模板 项 存储 在 系统 逻辑 库 SASHELPTmplmst 

中 ， 用 户 也 可 以 将 自 定义 模板 存储 在 系统 中 任何 可 写 的 特定 逻辑 库 中 。 


8. 环境 管理 PROC 


(1) OPTIONS 列 出 当前 SAS 的 系统 选项 ， 输 出 到 SAS 日 志 中 。SAS 系统 选项 
控制 SAS 输出 、 文 件 处 理 、 数 据 集 处 理 、 操 作 系 统 的 交互 以 及 其 他 全 局 系 
统 行为 。 

(2) OPTSAVE 将 SAS 系统 选项 设置 保存 到 SAS 注册 表 或 者 单个 SAS 数据 
集中 ， 结 合 OPTLOAD 过 程 步 可 以 实现 将 别 的 SAS 运行 环境 设置 完全 恢 
复 到 当前 SAS 会 话 中 。 
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(3) OPTLOAD 从 存储 在 SAS 注册 表 或 一 个 使 用 OPTSAVE 过 程 步 生成 的 SAS 
数据 集中 读 取 SAS 系统 选项 设置 ， 并 立即 生效 。 

(4) PRESENV 将 所 有 全 局 语句 和 宏 变 量 保存 到 外 部 文件 中 ， 临 时 数据 集 
WORK 中 的 数据 和 SAS 宏 CATALOG 被 写 入 辅助 目录 。 这 样 就 可 以 实现 
SAS 运行 的 断 点 继续 功能 。 重 启 的 SAS 会 话 可 以 通过 恢复 保存 的 全 局 语句 
和 SAS 宏 变 量 以 及 临时 数据 集 ， 完 全 恢复 上 次 运行 的 系统 状态 。 

(5) LOCALEDATA 定制 化 系统 Locale 数据 ， 包 括 查看 、 打 开 、 修 改 和 存储 自 
定义 Locale 数据 。 

(6) DBCSTAB 生成 SAS 支持 的 双 字 节 字 符 集 (DBCS) 转换 表 ， 用 于 当前 正在 
使 用 的 DBCS 编码 系统 具有 非 标准 的 码 点 表 ， 或 者 是 SAS 不 支持 的 DBCS 
编码 系统 。 

CD TRANTAB 创建 ， 编 辑 和 显示 定制 化 翻译 表 ， 其 数据 存在 SASUSER.Profile 
目录 册 中 ， 也 可 修改 SAS 系统 翻译 表 (在 SASHELP.Host 目录 册 中 ) 。 翻 
译 表 用 于 不 同 编码 系统 之 间 进 行 正 向 / 逆向 码 点 值 转换 。 

(8) FONTREG 将 操作 系统 中 的 FreeType 和 各 种 类 型 的 字体 注册 到 SAS 注册 表 
中 ， 这 样 这 些 字 体 就 可 以 在 SAS 输出 中 使 用 。 

(9) PRTDEF 在 批 处 理 模式 中 为 当前 站 点 上 的 单个 用 户 或 所 有 用 户 在 SAS 注册 
表 中 定义 打印 机 。 使 用 USESASHELP 选项 创建 偏好 的 打印 机 定义 对 所 有 
sas 用 户 可 用 ， 和 否则 仅 限 当前 用 户 可 用 。 

(10) PRTEXP 为 复制 和 修改 目的 ， 从 SAS 注册 表 中 解析 打印 机 属性 信息 ， 可 
写 入 SAS 日 志 或 SAS 数据 集中 ， 也 可 从 SASHELP 或 整个 SAS 注册 表 中 
查找 这 些 属性 。 

(1) QDEVICE 生成 关于 图 形 设备 和 通用 打印 机 有 关 的 各 种 报告 ， 包 括 颜 色 
支持 ， 默 认输 出 大 小 、 边 距 大 小 ， 分 辨 率 ， 支 持 的 字体 ， 硬 件 符号 ， 硬 件 
填充 类 型 ， 硬 件 线条 样式 ， 设 备 选 项 等 。 用 于 在 特定 应 用 中 选择 所 需 的 图 
形 或 打印 机 硬件 设备 ， 结 果 可 输出 到 SAS 日 志 或 者 SAS 数据 集 。 

(12) JAVAINFO 显示 SAS 运行 系统 中 Java 环境 有 关 信 息 ， 用 于 诊断 SAS Java 
环境 的 配置 ， 验 证 SAS 系统 中 的 Java 环境 是 否 正常 工作 。 

(13) PMENU 定义 用 户 交 互 菜单 ， 这 些 菜单 可 用 于 DATA 步 窗 口 ， 宏 窗口 ， 
SAS/AF 和 SAS/FSP 窗口 ， 或 任何 其 他 可 定制 菜单 的 SAS 应 用 。 菜 单 可 在 
命令 行 窗口 中 运行 PMENTU 命令 来 激活 。 

(14) DISPLAY 执行 SAS/AF 应 用 ， 它 执行 存储 在 SAS Catalog 中 并 使 用 
SAS/AF 产品 的 BUILD 过 程 步 编译 的 SAS/AF 应 用 。 


9. 元 数据 管理 PROC 


(1) METADATA 通过 发 送 XML 文本 到 SAS Metadata Server 进行 元 数据 读 写 
操作 ， 也 可 通过 SAS 开放 元 数据 接口 (Open Metadata Interface, OMI) Ji 
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务 器 状态 监视 元 数据 服务 器 及 其 配置 信息 。 

(2) METALIB 为 SAS 数据 集 (或 视图 ) 和 DBMS 数据 表 生 成 元 数据 信息 ， 在 
SAS Metadata Server 上 创建 或 者 更 新 数据 表 、 数 据 列 、 索 引 以 及 一 致 性 约束 
检查 。 

(3) METAOPERATE 在 批 处 理 模式 中 执行 管理 SAS Metadata Server 有 关 的 任务 ， 
包括 对 SAS 元 数据 储存 库 的 删除 、 清 空 、 注 销 、 刷 新 以 及 临时 暂停 或 停止 
SAS 元 数据 服务 器 。 

(4) AUTHLIB 管理 元 数据 绑 定 逻辑 库 的 工具 过 程 步 ， 包 括 创 建 、 修 改 、 净 化 、 
修复 、 删 除 和 报告 等 功能 。 


10. z/OS 大 型 机 特定 PROC 


(D ITEMS 创建 并 读 写 SAS ITEMSTORE 格式 的 文件 ， 本 过 程 步 仅 限 IBM 大 型 

主机 z/OS 平台 上 。 

PDS 列 出 ， 删 除 或 重 命名 已 分 区 的 数据 集 的 成 员 ， 包 括 两 种 类 型 的 分 区 数 

据 集 : 一 种 是 源 代码 ，SAS 宏 ， 存 储 在 Catalog 中 的 过 程 步 和 其 他 数据 ; 另 

一 种 是 仅 包含 Load 模块 的 Load 逻辑 库 。 本 过 程 步 仅 限 IBM 大 型 主机 z/OS 

平台 上 。 

PDSCOPY 将 分 区 数据 集 从 磁盘 ， 磁 带 之 间 进 行 复制 ， 本 过 程 步 仅 限 IBM 

大 型 主机 z/OS 平台 上 。 

SOURCE 用 于 z/OS 平台 上 读 取 PDS 或 PDS Library 并 生成 顺序 输出 ， 用 

于 备份 和 处 理 源 逻 辑 库 数据 集 。 

RELEASE 在 一 个 磁盘 数据 集 的 末尾 释放 未 用 空间 ， 可 用 于 大 多 数 顺 序 或 

分 区 数据 集 ， 而 不 仅 是 包含 SAS 数据 集 的 SAS 逻辑 库 。 本 过 程 步 仅 限 IBM 

大 型 主机 z/OS 平台 上 。 

TAPECOPY 将 整个 磁带 卷 ， 或 文件 从 一 个 或 多 个 磁带 卷 复制 到 一 个 输出 的 

磁带 卷 。 本 过 程 步 仅 限 IBM 大 型 主机 z/OS 平台 上 。 

(7) TAPELABEL 将 一 个 IBM 标准 的 标记 磁带 卷 的 标签 信息 写 出 到 SAS 过 程 步 
输出 文件 ， 包 括 数据 集 名 称 、DCB 信息 、 数 据 集 历史 等 。 
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18.5.8 ”SAS/STAT 过 程 步 速 查 


表 18-4 为 笔者 精心 整理 的 全 部 SAS/STAT 过 程 步 分 类 表 : 纵向 为 按照 字母 顺序 排 
序 的 101 个 PROC 步 ( 包 插 已 经 出 现在 Base SAS 产品 中 的 PROC FREQ) ,横向 为 对 应 
PROC 的 主要 数据 分 析 领 域 。 读 者 可 从 此 表 迅 速 查找 特定 分 析 领 域 对 应 的 SAS 过 程 步 进 
行 数据 分 析 。 


第 18 章 统计 学 基础 


表 18-4 ”数据 分 析 方 法 与 SAS/STAT 过 程 步 对 应 关系 ( A-L， 共 51 条 ) 
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表 18-4 ”数据 分 析 方 法 与 SAS/STAT 过 程 步 对 应 关系 ( M -Z， 共 50 条 ) 
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SAS/STAT 全 部 过 程 步 的 简要 说 明 如 下 文 所 述 。 为 了 跟 上 面 的 表格 配合 ， 所 有 的 PROC 
步 是 按照 字母 顺序 排列 的 〈 其 中 FREQ 过 程 步 在 Base SAS 产品 的 PROC 列表 中 出 现 过 )。 

(D ACECLUS 基于 近似 协 方差 估计 (ACE) 进行 聚 类 。 它 假定 聚 类 的 簇 是 具有 相等 
协 方差 矩阵 的 多 元 正 态 ，ACECLUS 能 够 获得 簇 内 协 方差 矩阵 的 近似 估计 而 不 
需要 知道 艇 的 数量 和 艇 成 员 的 数量 。 在 进行 FASTCLUS 和 CLUSTER 过 程 步 处 
理 之 前 用 于 预 处 理 数 据 很 有 用 。 

(2) ADAPTIVEREG 根据 FriedMan (1991) 定义 的 方法 拟 合 多 元 自 适 应 回归 样 条 曲 
线 ， 它 是 一 种 结合 回归 样 条 和 模型 选择 方法 的 非 参数 回归 技术 。 它 没有 假设 参 
数 化 模型 也 不 要 求 指定 结 值 来 构建 回归 样 条 ， 它 自 适应 地 为 不 同 变量 选择 恰当 
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结 值 ， 并 通过 模型 选择 技术 来 简化 模型 ， 从 而 自 适应 地 构造 样 条 基 函 数 。 

(3) ANOVA 对 来 自 各 种 试验 设计 的 平衡 数据 进行 方差 分 析 (ANOVA)。 其 中 连续 的 
响应 变量 〈 因 变量 ) 在 由 分 类 变量 (独立 变量 ) 表示 的 试验 条 件 下 进行 测量 。 假 
设 响应 的 变化 是 由 于 分 类 中 因素 的 效应 ， 随 机 误差 考虑 了 剩余 的 变化 。 

(4) BCHOICE 贝 叶 斯 选择 过 程 步 ， 它 对 离散 选择 模型 进行 贝 叶 斯 分 析 。 离 散 选择 
模型 用 于 市 场 研 究 中 模拟 在 替代 产品 和 服务 中 进行 选择 的 决策 者 进行 建 模 。 决 
策 者 可 以 是 人 ， 家 庭 、 公 司 等 ， 蔡 代 品 可 以 是 产品 ， 服 务 和 行动 ， 或 任何 其 他 
选项 ， 或 者 其 他 必须 做 出 选择 的 项 。 为 决策 提供 备 选 方案 的 集合 称 为 选择 集 。 

(5) BOXPLOT 绘制 由 一 系列 并 排 的 盒 形 图 和 线条 组 成 的 箱 线 图 ， 可 揭示 一 组 数据 
的 若干 主要 统计 量 ， 包 括 平 均值 、 四 分 位 数 、 最 小 值 和 最 大 值 。 

(6) CALIS 用 于 社会 和 行为 科学 中 的 重要 统计 工具 一 一 结构 方程 模型 ， 它 表达 了 一 
个 所 有 变量 都 是 随机 变量 的 变量 系统 之 间 的 关系 ， 变 量 可 以 是 显 性 的 观测 变量 ， 
也 可 以 是 不 能 观测 所 得 的 隐藏 变量 ， 它 们 服从 近似 多 变量 的 正 态 分 布 。CALIS 
采用 最 大 似 然 MDO) 估计 和 广义 最 小 二 乘 (LS) 估计 。 

(7) CANCORR 典型 相关 分 析 ， 部 分 典型 相关 分 析 和 典型 元 余 分 析 。 用 于 分 析 两 个 
变量 集合 之 间 关 系 的 多 重 相关 性 的 泛 化 。 在 多 重 相 关中 ， 关 系 通过 一 个 由 解释 
变量 组 的 线性 组 合 与 单个 因 变 量 来 揭示 他 们 之 间 的 关系 ， 而 典型 相关 中 是 一 个 
变量 集合 的 显现 组 合 与 男 一 个 变量 集 的 线性 组 合 之 间 的 关系 ， 这 些 线 性 组 合成 
为 典型 变量 。 两 组 变量 在 统计 模型 中 是 对 称 的 ， 任 何 一 组 都 可 以 被 当 作 解释 变 
量 或 响应 变量 。 简 单 相 关 和 多 重 相 关 可 以 被 看 作 是 典型 相关 在 一 个 或 两 个 集合 
都 只 包含 一 个 变量 时 的 特例 。 

(8) CANDISC 典型 判别 分 析 ， 是 主 成 分 分 析 和 典型 相关 分 析 有 关 的 降 维 技术 。 典 
型 判别 分 析 寻 找 在 类 或 组 之 间 能 提供 最 大 区 分 的 定量 变量 的 线性 组 合 ， 它 生成 
量化 变量 的 线性 组 合 称 为 典型 变量 ， 汇 总 类 间 变 化 的 方式 与 主 成 分 汇总 总 变异 
的 方式 相同 。 

(9) CATMOD 对 以 列 联 表 表 示 的 类 别 数据 进行 分 类 数据 建 模 ， 它 将 线性 模型 拟 合 
为 响应 频数 的 函数 ， 可 用 于 线性 建 模 ， 对 数 线性 建 模 ， 逻 辑 回 归 ， 重 复 测量 分 
析 等 。 对 一 般 线性 模型 中 使 用 加 权 最 小 二 乘法 WLS) 估计， 对 数 线性 模型 和 
广义 Logits 分 析 使 用 最 大 似 然 法 估计 。 

(10) CAUSALMED 对 观测 到 的 数据 中 的 因果 关系 中 介 效 应 进行 分 析 和 估计 。 它 涉 

及 处 理 变 量 T〈 医 学 分 析 中 称 为 暴露 ， 中 介 变 量 M 和 输出 变量 Y， 以 及 一 
组 混杂 了 TMY 之 间 关 系 的 类 别 或 连续 型 的 预 处 理 或 背景 协 变量 。 
(11) CAUSALTRT 在 二 元 处 理工 中 对 连续 或 离散 结果 立 ， 估 计 处 理 的 平均 因果 效应 。 
它 可 以 估计 两 种 因果 效应 : 平均 处 理 效 果 ATE 和 已 处 理 的 平均 处 理 效 果 ATT. 
(12) CLUSTER 对 数据 集中 的 观测 大 多 用 11 种 聚 类 方法 进行 层次 型 聚 类 ， 数 据 可 
以 是 坐标 或 距离 ， 默 认 使 用 欧 氏 距离 。 用 户 也 可 用 DISTANCE 过 程 步 计算 非 
欧 几 里 得 距离 供 本 过 程 步 做 进一步 分 析 。 
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(13) CORRESP 执行 简单 对 应 分 析 和 多 重 对 应 分 析 。 对 应 分 析 可 以 用 查找 交叉 表 
或 列 联 表 的 行 和 列 的 低 维 图 像 表 示 ， 每 一 行 和 列 对 应 的 单元 中 的 频数 ， 在 图 
中 由 一 个 点 进行 表示 。 该 过 程 步 的 输入 数据 可 以 是 原始 二 分 类 或 多 分 类 的 原 
始 分 类 响应 数据 ， 或 双向 列 联 表 。 

(14) DISCRIM 判别 分 析 ， 对 一 个 或 多 个 定量 变量 ， 以 及 一 个 定义 观测 分 组 的 分 类 
变量 的 数据 集中 所 有 观测 ， 建 立 判别 函数 〈 判 别 标准 ) 来 将 观测 分 成 一 个 或 
多 个 分 组 。 判 别 标 准 可 用 于 其 他 数据 集 进行 类 别 判定 和 预测 。 

(15) DISTANCE 对 数据 集中 的 观测 之 间 计 算 各 种 距离 和 相似 系数 ， 变 量 可 包含 数 
值 型 或 者 字符 型 变量 。 

(16) FACTOR 因子 分 析 和 主 分 成 分 析 过 程 步 , 支持 旋转 。 输 入 数据 可 以 是 多 元 数据 、 
相关 矩阵 、 协 方差 矩阵 ， 以 及 因子 模式 或 者 评分 系数 矩阵 。 可 基于 相关 性 矩 
阵 或 者 协 方差 矩阵 且 可 将 大 部 分 结果 输出 到 SAS 数据 集 。 

(1 FASTCLUS 对 一 个 或 多 个 定量 变量 ， 基 于 距离 进行 不 相交 的 聚 类 分 析 ， 每 个 
观测 只 能 属于 有 且 仅 有 一 个 组 。 它 不 形成 树 形 结构 而 是 平板 分 组 。 如 果 要 对 
不 同 数量 的 簇 进行 单独 分 析 可 独立 运行 它 ， 或 者 用 于 对 样本 容量 较 大 的 数据 
集 进 行 分 层 聚 类 。 它 可 用 于 查找 初始 簇 作 为 于 层次 聚 类 CLUSTER 过 程 步 的 
输入 。 

(8) FMM 有 限 混合 模型 ， 每 个 响应 变量 来 自若 干 个 未 知 概率 的 分 布 ， 它 将 统计 模 
型 拟 合 为 服从 有 限 分 布 的 混合 体 。 传 统统 计 分 布 可 看 作 是 FMM 在 有 且 仅 有 
一 个 分 量 时 的 特例 。 

(19) FREQ 形成 单 向 或 N 向 的 频数 表 或 列 联 表 〈 交 叉 表 ) ， 对 双向 表 计 算 关 联 的 
度量 和 检验 ， 对 N 向 表 它 计算 层 内 和 层 间 的 统计 量 来 进行 分 层 分 析 。 

(200 GAM 拟 合 广义 加 性 模型 。 

(21) GAMPL 基于 低 阶 回归 样 条 ， 拟 合 广义 加 性 模型 (GAM)。 

(22) GEE 提供 加 权 广 义 估计 方程 。 

(23) GENMOD 拟 合 广义 线性 模型 。 

(24) GLIMMIX 拟 合 广义 线性 混合 模型 。 

(25) GLM 拟 合 一 般 线性 模型 ， 也 用 于 方差 分 析 的 线性 模型 。 

(260 GLMMOD 构造 一 般 线性 模型 的 设计 和 矩阵; 它 本 质 上 为 GLM 过 程 步 构建 建 模 
前 端 。 

(27) GLMPOWER 对 线性 模型 进行 前 瞻 性 分 析 和 样本 容量 分 析 。 

(28) GLMSELECT 在 一 般 线性 模型 框架 下 进行 效应 选择 。 

(29) HPCANDISC 典型 判别 分 析 的 高 性 能 版 本 。 

(30) HPFMM 有 限 混 合 模型 的 高 性 能 版 本 ， 对 有 限 混 合 响应 分 布 或 者 单 变量 分 布 
数据 拟 合 统计 模型 。 

(3D HPGENSELECT 为 广义 线性 模型 提供 模型 拟 合 和 模型 构建 。 它 适 于 指数 类 型 
的 标准 分 布 模型 ， 如 正 态 分 布 、 泊 松 分 布 和 Tweedie 分 布 ， 是 GENSELECT 
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过 程 步 的 高 性 能 版 本 。 

(32) HPLMIXED 拟 合 多 种 混合 线性 模型 ， 使 拟 合 的 模型 可 以 对 数据 进行 统计 
推断 。 

(33) HPLOGISTIC 对 二 元 、 二 项 和 多 项 数据 拟 合 逻辑 回归 模型 ，LOGISTIC 的 高 
性 能 版 本 。 

(34) HPMIXED 通过 稀疏 和 矩阵 技术 ， 拟 合 具有 简单 协 方差 分 量 结 构 的 线性 混合 模型 。 

(35) HPNLMOD 用 非 线性 最 小 二 乘法 或 最 大 似 然 法 拟 合 ， 为 非 线 性 回归 模型 的 高 
性 能 版 本 。 

(36) HPPLS 偏 最 小 二 乘法 (PLS) 拟 合 模型 进行 线性 预测 ， 为 偏 最 小 二 乘法 PLS 
的 高 性 能 版 本 。 

(37) HPPRINCOMP 主 成 分 分 析 高 性 能 版 本 。 

(38) HPQUANTSELECT 对 分 位 数 进行 回归 分 析 ， 拟 合 和 执行 效应 选择 。 是 分 位 
数 回归 框架 下 的 效应 选择 过 程 步 QUANTSELECT 的 高 性 能 版 本 。 

(39) HPREG 对 普通 线性 最 小 二 乘 模型 ， 进 行 拟 合 和 执行 模型 选择 。 

(40) HPSPLIT 构建 基于 树 的 统计 模型 ， 以 进行 分 类 和 回归 。 

(41) ICUFETEST 执 行 区 间 删 失 数 据 〈 Interval-Censored data). 的 非 参 数 化 生存 分 析 。 

(42) ICPHREG 用 于 将 比例 风险 回归 模型 (proportional hazards regression models ) 
拟 合 区 间 删 失 数据 。 也 可 用 于 故障 时 的 无 删 失 数据 、 右 删 失 数据 和 左 删 失 
数据 ; 总 体 成 员 的 幸存 时 间 被 假定 为 服从 风险 函数 2D。 

(43) INBREED 用 于 计算 系谱 的 协 方差 或 近 交 系数 C Inbreeding coefficients ) o 

(44) IRT 拟 合 项 目 反 应 理论 ORT) 模型 。 

(45) KDE 执行 单 变量 和 双 变 量 核 密度 估计 。 

(46) KRIGE2D 在 两 个 维度 上 ， 执 行 普 通 克 里 金 法 〈 Ordinary Kriging ) 。 它 可 处 
EE I] SERICO 8 种 变异 函数 模型 : 高 斯 、 指 数 、 球 形 、 动 力 、 立 方 、 五 球 、 
正弦 孔 效应 以 及 Matém 模型 。 

(47) LATTICE 对 点 阵 设 计 的 试验 数据 进行 方差 分 析 和 简单 协 方差 分 析 。 

(48) LIFEREG 生存 分 析 过 程 步 ， 对 无 删 失 、 右 删 失 、 左 删 失 和 区 间 删 失 的 故障 时 
间 数 据 ， 拟 合 参数 化 模型 。 

(49) LIFETEST 生存 分 析 过 程 步 ， 通 过 乘积 极限 法 (也 称 Kaplan-Meier 法 ) 或 寿 
命 表 法 (也 称 精算 方法 ) 计算 幸存 者 函数 的 非 参数 估计 ， 用 于 非 参数 化 生存 
分 析 。 

(50) LOESS 实现 由 Cleveland, Devlin 和 Grosse (1988) 年 开创 的 对 回归 曲面 进行 估 
计 的 非 参 数 方法 ， 由 于 不 需要 对 回归 面 进行 假设 参数 形式 而 具有 很 大 的 灵活 
性 。 适 用 于 数据 中 包含 异常 值 且 需 要 一 个 稳健 拟 合 方法 时 。 

(51) LOGISTIC 还 辑 回归 过 程 步 ， 拟 合 具 有 二 元 、 定 序 或 者 定 类 因 变 量 的 回归 模型 。 

(52) MCMC 执行 通用 的 马尔 可 夫 链 蒙特 卡 罗 (Markov Chain Monte Carlo) 模拟 拟 
合 贝 叶 斯 模型 。 贝 叶 斯 统计 与 传统 基于 最 频繁 或 经 典 方法 不 同 的 统计 方法 。 
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(53) 


(54) 
(55) 


MDS 拟 合 双向 和 三 向 、 度 量 和 非 度量 的 多 维 标 度 模型 (Multidimensional 
scaling) ， 是 对 特定 维度 空间 中 一 系列 对 象 的 坐标 进行 估计 的 系列 方法 。 

MI 对 缺失 值 (Missing Value) 进行 多 重 插 补 。 

MIANALYZE 结合 多 个 估计 (Multiple Imputation) 的 分 析 结 果 ， 生 成 有 效 的 
统计 推断 ， 适 用 于 分 析 数 据 集中 包含 缺失 值 时 。 


656) MIXED 拟 合 具有 固定 和 随机 效应 的 一 般 线 性 模型 ， 用 于 对 数据 做 出 统计 推断 ， 


(57) 


(58) 


(59) 


(60) 


C61) 
(62) 


也 用 于 方差 分 析 中 的 混合 模型 。 混 合 线性 模型 (Mixed Linear Model) 为 数据 
的 均值 ， 方 差 和 协 方差 提供 了 灵活 的 建 模 方法 。 

MODECLUS 基于 非 参数 密度 估计 的 几 种 算法 之 一 ， 对 SAS 数据 集中 的 观测 
MULTTEST 在 对 同一 数据 集 执行 多 个 假设 检验 时 ， 从 一 组 假设 检验 中 通过 调 
3& P- 值 来 解决 多 重 检验 问题 。 

NESTED 随机 效应 方差 分 析 ， 适 用 于 具有 嵌 套 《层次 ) 结构 和 分 类 效果 的 试 
验 数据 。 

NLIN 非 线性 拟 合 回归 模型 ， 并 采用 非 线 性 最 小 二 乘法 或 加 权 非 线性 最 小 二 乘 
法 估计 参数 。 

NLMIXED 拟 合 非 线 性 混合 模型 ， 适 用 于 固定 和 随机 效应 都 是 非 线 性 场景 。 
NPAR1WAY 非 参 数 单 因子 方差 分 析 过 程 步 ， 对 单 向 分 类 中 的 位 置 和 尺度 差异 
进行 非 参 数 检验 。 


(63) ORTHOREG 回归 正 交 设 计 ， 用 最 小 二 乘法 拟 合 一 般 线性 模型 ， 针 对 病态 数据 ， 


(64) 


(65) 


(66) 


(67) 


(68) 
(69) 


提供 比 其 他 过 程 步 更 精确 的 估计 。 

PHREG 基于 Cox 比例 风险 模型 (Proportional Hazards Model) ， 对 生存 数据 
进行 回归 分 析 ， 常 归于 生存 分 析 。 

PLAN 为 因子 试验 进行 试验 设计 和 随机 化 计划 ， 特 别 是 嵌 套 和 交叉 试验 随机 
块 设计 。 

PLM 对 SAS/STAT 其 他 过 程 步 生 成 的 ITEMSTORE 格式 的 数据 作 后 拟 合 统计 
分 析 。 

PLS 偏 最 小 二 乘法 (PLS) 对 模型 进行 拟 合 ， 过 程 步 也 使 用 任意 线性 预测 方 
法 拟 合 模型 。 

POWER 对 各 种 统计 分 析 进 行 前 瞻 性 分 析 和 样本 量 分 析 。 

PRINCOMP 执行 主 成 分 分 析 过 程 步 ， 输 入 数据 可 以 是 原始 数据 、 相 关 和 矩阵 、 
协 方差 矩阵 或 SSCP 矩阵 (Sum-of-Squares-and-crossproducts, SSCP) 。 


C0) PRINQUAL 执行 定性 数据 、 定 量 数据 或 它们 的 混合 数据 进行 主 成 分 分 析 


Cl 


(CA). 

PROBIT 对 生物 试验 的 量子 响应 数据 或 其 他 离散 事件 数据 ， 计 算 回 归 参 数 的 
最 大 似 然 估 值 和 自然 〈 或 阔 值 ) 响应 率 ， 包 括 Probit、Logit、 普 通 Logistic. 
GoMpit 回归 模型 。 
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(72) PSMATCH 倾向 性 得 分 配对 分 析 ， 提 供 各 种 各 样 的 倾向 性 配对 分 析 的 工具 。 

(73) QUANTLIFE 生存 分 析 过 程 步 ， 对 生存 数据 进行 分 位 数 回 归 分 析 。 

C74) QUANTREG 拟 合 分 位 数 回 归 模 型 ， 采 用 分 位 数 回归 ， 在 对 一 个 响应 变量 的 
条 件 分 位 数 上 ， 为 协 变量 的 效应 建行 建 模 。 

(75) QUANTSELECT 实现 分 位 数 回归 框架 中 的 效应 选择 。 

C76) REG 回归 分 析 过 程 步 ， 是 回归 分 析 中 最 通用 ， 采 用 普通 最 小 二 乘法 进行 回归 
的 过 程 步 。 

(77) ROBUSTREG 稳健 回归 ， 用 于 侦 测 异常 值 和 在 异常 值 的 存在 的 情况 下 通过 限 
定 异 常 值 作用 来 提供 平稳 结果 。 

(78) RSREG 使 用 最 小 二 乘法 拟 合 二 次 响应 面 回 归 模 型 (Response Surface 
Model) 。 响 应 面 模 型 是 一 种 一 般 线 性 模型 ， 其 重点 关注 拟 合 响应 函数 的 特性 ， 
特别 是 最 佳 估计 的 响应 值 发 生 的 地 方 。 

(79) SCORE 将 两 个 SAS 数据 集 的 值 相 乘 ， 其 中 一 个 包含 系数 ， 另 一 个 包含 使 用 
该 数据 集中 的 系数 进行 评分 的 原始 数据 。 

(80) SEQDESIGN 用 于 临床 试验 的 中 期 设计 ， 临 床 试验 是 以 人 为 目标 检验 新 药 或 
新 处 方 的 效应 和 安全 性 的 试验 。 

(81) SEQTEST 对 分 组 序列 的 临床 试验 进行 中 期 分 析 。 

(82) SIM2D 利用 LU 分 解 技 术 ， 对 具有 二 维 均值 和 协 方差 结构 的 高 斯 随机 域 进行 
空间 模拟 。 

(83) SIMNORMAL 对 一 组 正 态 相关 或 高 斯 随机 变量 进行 条 件 和 无 条 件 模拟 。 

(84) SPP 对 二 维 空间 点 的 模式 进行 分 析 。 

(85) STDIZE 专业 的 数据 标准 化 过 程 步 ， 通 过 减 去 一 个 位 置 度量 (如 均值 ) 并 除 
以 一 个 尺度 值 〈 如 标准 差 ) ， 对 SAS 数据 库 中 的 单个 或 多 个 数值 型 变量 进行 
数据 标准 化 。 

(860 STDRATE 对 研究 总 体 直 接 计算 标准 化 的 比率 和 风险 ， 用 于 流行 病 学 研究 和 分 析 。 

(87) STEPDISC 逐步 判别 分 析 过 程 步 ， 对 给 定 一 个 分 类 变量 和 几 个 定量 变量 进行 
逐步 判别 分 析 ， 以 选择 用 于 区 分 类 之 间 的 定量 变量 的 子 集 。 

(88) SURVEYFREQ 抽样 调查 与 分 析 过 程 步 ， 从 具有 分 层 、 聚 类 和 不 等 权重 的 复 
杂 多 层 抽 样 设计 中 ， 产 生 1 到 向 频率 表 或 交叉 表 。 

(89) SURVEYIMPUTE 对 数据 集中 的 缺失 值 ， 用 同一 项 中 的 观测 值 进 行 替换 。 
(90) SURVEYLOGISTIC 抽样 调查 与 分 析 过 程 步 ， 适 用 于 通过 极 大 似 然 法 ， 对 离散 
响应 抽样 数据 进行 逻辑 回归 的 模型 。 模 型 可 包括 二 元 、 定 序 或 定 类 因 变 量 。 
(91) SURVEYMEANS 抽样 调查 与 分 析 过 程 步 ， 通 过 抽样 调查 计算 统计 量 ， 来 估 
计 总 体 的 特征 。 例 如 从 分 层 、 聚 类 和 不 等 权 的 复杂 多 层 抽样 中 ， 计 算 均 值 、 

总 和 、 比 例 、 分 位 数 和 比率 等 。 

(92) SURVEYPHREG 抽样 调查 与 分 析 过 程 步 ， 是 基于 Cox 比例 风险 模型 的 复杂 

抽样 样本 设计 ， 对 生存 数据 执行 回归 分 析 。 
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(93) SURVEYREG 抽样 调查 与 分 析 过 程 步 ， 对 复杂 抽样 样本 进行 线性 回归 分 析 。 

(94) SURVEYSELECT 抽样 调查 与 分 析 过 程 步 ， 提 供 多 种 方法 来 选择 基于 概率 的 
随机 样本 。 本 过 程 步 可 以 选择 简单 的 随机 样本 ， 也 可 以 根据 复杂 的 多 阶段 设 
计 进 行 抽样 ， 包 括 分 层 、 聚 类 和 不 等 概率 选择 。 当 使 用 概率 抽样 时 ， 调 查 总 
体 中 的 每 个 单元 都 有 一 个 已 知 被 抽 中 的 概率 。 
(95) TPSPLINE 使 用 惩罚 最 小 二 乘法 来 拟 合 非 参 数 回归 模型 。 它 计算 薄板 平滑 样 条 
CThin-plate smoothingsplines) ， 来 近似 估计 观察 到 的 包含 噪点 的 平滑 多 变量 函 
数 。 本 过 程 步 补充 了 标准 SAS 回归 过 程 步 (如 GLM, REG 和 NLIN) 提供 的 
方法 。 这 些 过 程 步 可 以 处 理 大 多 数 情 况 下 指定 的 回归 模型 和 已 知 固定 数量 参数 
的 模型 。 但 是 如 果 对 模型 没有 预先 的 了 解 ， 或 者 知道 数据 不 能 用 具有 固定 参数 
数量 的 模型 表示 ， 则 可 以 使 用 TPSPLINE 过 程 步 对 数据 建 模 。 
(96) TRANSREG 变换 回归 拟 合 线性 模型 ， 可 选择 平滑 、 样 条 、Box-Cox 以 及 变量 
的 其 他 非 线性 变换 。 使 用 本 过 程 步 可 以 通过 散 点 图 拟 合 单条 曲线 或 多 条 曲 
线 ， 每 条 曲线 对 应 分 类 变量 的 一 个 级 别 。 常 用 在 其 他 分 析 前 的 试验 设计 和 变 
量 分 类 。 

(97) TREE 绘制 聚 类 分 析 结 果 的 谱系 图 ， 它 读 取 由 聚 类 分 析 过 程 步 CLUSTER 或 
VARCLUS 过 程 步 创 建 的 数据 集 生成 树 状 谱系 图 ， 该 树 状 结构 显示 了 层次 聚 
类 分 析 的 结果 。 

(98) TTEST 学 生 t 检验 过 程 步 ， 计 算 一 个 样本 、 一 对 观测 、 两 个 独立 样本 和 
AB/BA 交叉 设计 的 置信 区 间 。 该 过 程 步 使 用 ODS 图 形 来 创建 图 形 作为 其 输 
出 的 一 部 分 。 

(99) VARCLUS R 型 聚 类 分 析 过 程 步 ， 采 用 分 解法 或 迭代 法 将 一 组 数值 分 成 不 重合 
的 徐 ， 与 每 个 簇 关 联 的 是 簇 中 变量 的 线性 组 合 ， 可 以 是 主 成 分 或 者 质心 。 
(1000 VARCOMP 处 理 具 有 随机 效应 的 一 般 线性 模型 ， 估 计 每 个 随机 效应 对 因 变 量 
方差 的 贡献 。 随 机 效应 是 分 类 效应 ， 其 假定 层级 是 从 一 个 无 限 可 能 层级 的 总 
体 中 随机 选择 的 。- GLM, MIXED 和 GLIMMIX 也 适用 于 类 似 的 随机 效应 模型 ， 

但 对 于 特定 的 设计 和 模型 ，VARCOMP 计算 效率 更 高 。 

(101) VARIOGRAM 对 二 维 空间 数据 计算 空间 连续 性 的 经 验 度量 ， 这 些 度量 是 样 
本 数据 对 之 间距 离 的 函数 。 所 估计 的 连续 性 度量 为 经 验 性 的 半 变 异 函 数 和 协 
方差 。 该 过 程 步 还 提供 Moran I 和 Geary C 空间 自 相关 统 计量 ， 以 及 Moran 
散 点 图 ， 用 于 可 视 化 观测 周围 指定 邻 域内 的 空间 关联 。 该 过 程 步 使 用 ODS 
图 形 来 创建 图 形 作为 其 输出 的 一 部 分 。 
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要 了 解数 据 科 学 首先 要 深刻 理解 数据 分 析 科 学 中 的 若干 重要 定律 或 定理 ， 其 中 最 
重要 的 就 是 大 数 定律 (Law of Large Number，LLN) 和 中 心 极 限定 理 (Central Limit 
Theorem, CLT) ， 前 者 探讨 样本 均值 收敛 问题 ， 后 者 探讨 极限 分 布 问题 。 

如 果 在 试验 中 变量 的 取 值 相互 不 影响 ， 我 们 称 该 随机 变量 是 相互 独立 。 如 果 随 
机 变量 相互 独立 且 具 有 相同 的 概率 分 布 ， 则 称 这 组 随机 变量 的 分 布 满足 独立 同 分 布 
(Independent and Identically Distributed, ii) 。 大 数 定 律 告诉 我 们 ， 在 随机 过 程 中 ， 
随 着 试验 次 数 的 增加 ， 随 机 变量 的 预期 值 与 实际 值 之 间 的 百分比 差 会 趋向 于 0。 即 随 着 
样本 数量 越 大 ， 样 本 均值 越 接近 期 望 值 。 

人 们 在 重复 试验 中 发 现 事件 发 生 频 率 一 般 会 趋向 于 一 个 稳定 值 ， 而 现实 世界 大 量 
使 用 的 算术 平均 值 具有 某 种 稳定 性 。 统 计 学 上 的 大 数 定律 并 不 是 单个 定律 ， 而 是 一 组 定 
律 ， 包 括 弱 大 数 定律 和 强大 数 定律 。 弱 大 数 定律 和 强大 数 定律 条 件 是 相同 的 ， 即 对 于 独 
立 同 分 布 的 随机 变量 序列 (xx nx) o AEX] 。 所 谓 大 数 定律 的 强 弱 ， 其 区 别 
leg digaas 前 者 是 依 概 率 P SX (Convergence In Probability) , id 
Hx, Za 〈 当 m 一 co) ; 而 后 者 是 依 概率 1 收敛 ， 就 是 几乎 必然 收敛 (Converge Almost 
Surely) ， ix, Sy G5 "一 oo) 。 


19. 1 大 数 定律 


19.1.1 弱 大 数 定律 


假如 xi, o. …, x 为 独立 同 分 布 的 随机 变量 序列 ， 变 量具 有 相同 的 均值 (天)=p 和 标 
Ho Wah X = 3E žno kj, EE X BL CO 等 于 变量 的 总 体 均值 wK。 即 


(3) - S23) 6) (8) Ieu)- 
且 变 量 了 的 方差 var(X ) "I 
E E 


根据 切 比 雪夫 不 等 式 P(*- u[-ko) <L (其 中 大 为 标准 差 的 倍数 ， 有 天 > 0 )， 对 


所 有 = > 0 有 如 下 不 等 式 成 立 : * 
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=w. g? 
ne? 

当 w 一 时 ， 上 面 的 不 等 式 变 为 iim P(x- dae )=0 。 也 就 是 说 ， 对 任意 大 于 零 的 
EN e, vasi E aee noo WEAR OL. 这 说 明 样 本 均值 依 概率 
收敛 于 期 望 值 。 结 论 我 们 已 经 知道 ， 但 如 何 理解 这 个 大 数 定律 呢 ? 首先 要 从 马尔 可 夫 不 
等 式 和 切 比 雪夫 不 等 式 说 起 。 

对 于 某 个 取 值 大 于 等 于 0 的 随机 变量 x, x 取 值 大 于 等 于 某 个 正 数 a 的 概率 
P(x Z a) 不 可 能 超过 随机 变量 x 的 期 望 吾 (x) 除 以 该 正 数 a; 也 就 是 说 x 取 值 大 于 某 个 正 
数 a 的 概率 具有 固定 的 上 界 。 这 一 结论 是 由 著名 的 马尔 可 夫 不 等 式 给 出 的 ， 其 数学 定义 
和 证 明 如 下 : 

马尔 可 夫 不 等 式 

马尔 可 夫 不 等 式 为 : 如 果 x 为 非 负数 有 Pex ma) EO, 

证 明 步 又 : 数学 期 望 计 算 公式 如 下 : 

E(x)-[ xP(x)dx - ' xP(x)dx [^ xP(x)dx 

由 于 P(x) 是 概率 密度 ， 因 此 它 表 定 大 于 等 于 0; 且 由 于 x 是 正 数 ， 则 x 必然 大 于 
等 于 0， 因 此 fixPG)ax 必然 大 于 等 于 0。 上 面 的 等 式 就 演变 为 如 下 不 等 式 : 

E(x) - | xP(x)dx « [^ xP(x)dxz [^ xP(x)dx 
由 于 x > a 则 代入 上 面 的 不 等 式 进一步 演化 为 如 下 不 等 式 : 
['xPG)axz [ aP(x)àx - a[^ P(x)dx - aP(xza) 
从 而 有 结论 : EQ) aPG: za) 从 而 推导 出 了 马尔 可 夫 不 等 式 : 
Pza) E 

这 个 抽象 的 马尔 可 夫 不 等 式 在 现实 中 也 具有 实用 价值 ， 比 如 张 三 的 打靶 平均 成 绩 是 
5 环 ， 如 果 张 三 跟 你 说 他 今天 在 军训 打靶 时 超常 发 挥 ， 说 自己 打靶 时 3/4 都 是 8 环 以 上 ， 
则 张 三 的 陈述 是 否 值得 相信 ? 

本 例 中 or=8， 根 据 马 尔 可 夫 不 等 式 有 Pe > 8) 的 概率 应 该 不 可 能 超过 
E 
E L s js oos - casn, 也 就 是 说 根据 张 三 的 平均 成 绩 为 5 环 的 实际 情况 ， 张 三 
打靶 8 环 以 上 的 概率 不 可 能 超过 62.5%。 现 在 张 三 自 称 3/4=75% 都 是 8 环 以 上 ， 由 于 
62.5% < 75%， 说 明 张 三 是 在 夸大 其 词 ， 其 陈述 是 不 可 信 的 。 

2. 切 比 雪夫 不 等 式 

根据 前 面 的 马尔 可 夫 不 等 式 ， 当 o- 忆 时 ， 代 入 不 等 式 可 得 
(uy) o? 


P| (x-4? >r |< E CE 
则 对 均值 为 u 和 方差 "为 随机 变量 x， 对 所 有 ie 0 都 有 如 下 不 等 式 成 立 : 
P(|x 一 uz Jew 


P(Xx-Azs)s 
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从 而 推导 出 切 比 雪夫 不 等 式 : 
1 
P(- MP) 


切 比 雪夫 不 等 式 告诉 我 们 越 远离 平均 值 y 的 发 生 概率 是 越 低 的 。 比 如 以 正 态 分 布 为 
例 ， 数 据 分 布 在 2 们 5 之 外 的 概率 根据 切 比 雪夫 不 等 式 有 P(*- />2cj 和 十 =025， 
即 数据 落 在 2 倍 之 外 的 概率 应 该 至 少 小 于 2596。 


19.1[2 三 种 大 数 定律 


如 果 用 一 句 话 概括 弱 大 数 定律 就 是 : 独立 同 分 布 的 随机 序列 ， 并 且 期 望 存在 ， 则 样 
本 均值 依 概率 收敛 于 总 体 均值 。 具 体 而 言 存 在 如 下 三 种 表述 : 
CD 切 比 雪夫 大 数 定律 : 设 随 机 变量 X, Xn e X, 相互 独立 ， 均 具有 有 限 方差 ， 且 
被 同一 常数 C 所 限定 ;， BDA) < COM 去 1, 2,…,n 成 立 ， 则 对 任意 正 数 s， 有 
iE x -e 
no icl 
其 中 当 随 机 变量 X, X, «X, 具有 相同 的 数学 期 望 EX) 时 ， 上 面 的 公式 变 为 
lim rÍ Èx T 
"ia i 
也 就 是 说 当 n 趋 于 无 穷 大 时 ， 样 本 均值 接近 于 总 体 均值 (期 望 》。 切 比 雪夫 大 数 定 
律 要 求 随机 变量 相互 独立 ， 期 望 和 方差 都 存在 ， 但 不 要 求 独立 同 分 布 。 
COD 伯 努 利 大 数 定律 : 假设 4 是 n 次 独立 重复 试验 中 事件 4 发生 的 次 数 ,，p 是 事 
件 A 在 每 次 试验 中 发 生 的 概率 (0 < p < 1)， 则 对 任意 正 数 。 > 0， 有 


limP de Strip [pe =0 

伯 努 利 大 数 定律 说 明 当 试 验 次 数 n 很 大 时 ， 事 件 4 发 生 的 频率 与 概率 有 较 大 差别 的 
可 能 性 是 很 小 的 ， 也 就 是 说 有 较 小 偏差 的 可 能 性 充分 大 。 因 此 当 试 验 次 数 n 很 大 时 ， 
我 们 可 以 用 事件 发 生 的 频率 代替 事件 发 生 的 概率 ， 从 而 在 数学 上 证 明了 频率 具有 稳 
定性 。 伯 努 利 大 数 定律 是 从 二 项 分 布 ， 且 存在 相同 期 望 和 方差 时 导出 频率 等 于 概率 
这 一 结论 。 

G) 辛 钦 大 数 定律 : 设 随机 变量 五, X, …, 马 是 相互 独立 同 分 布 的 随机 变量 序列 ， 
且 ECO)=-， 则 对 于 任意 正 数 =。 有 : 


<er=l 


«el 


3EBOKBoEHUS SS XSOETRII M Re, CEEDKIWEBTEXE EME , RA 
要 求 随机 变量 的 方差 存在 ， 因 此 它 比 伯 努 利 大 数 定律 具有 更 广泛 的 应 用 范围 。 

弱 大 数 定律 的 核心 是 “ 依 概 率 收敛 ”， 但 我 们 不 知道 是 否 随 着 n 增 大 ， 即 使 概率 很 
小 ， 样 本 均值 有 没有 可 能 偶然 偏离 总 体 均值 上 很 多 呢 ? 当 强大 数 定律 被 证 明 后 ， 我 们 已 
经 知道 样本 均值 会 几乎 会 处 处 收敛 到 总 体 均值 x 上 。 

大 数 定律 简单 而 直观 的 描述 为 : 如 果 有 一 个 随机 变量 X， 不 断 地 观察 它 的 n 个 采样 


SAS 技 术 内 幕 ， 从 程序 员 到 数据 科学 家 


值 Xi, Xa X,…, X,， 然 后 计算 这 n TREES ES (EX, S n 趋向 于 正 无 穷 的 时 候 ， 
这 个 平均 值 就 会 收 剑 于 这 个 随机 变量 X 的 期 望 ， 它 是 一 个 常数 。 


UN 下- 
ix rre 


19.1.3 图 形 化 证 明 


下 面 我 们 做 抛 硬 币 试验 ， 理 论 上 每 次 得 到 正面 和 反面 的 可 能 性 是 一 样 的 ， 即 单 次 抛 
硬币 试验 是 取 值 为 0 或 1 的 离散 均匀 分 布 。 然 而 ， 现 在 我 们 不 是 抛 一 次 硬币 ， 而 是 把 重 
复 独立 抛 ?次 硬币 算 作 一 次 试验 , 这 样 我 们 在 一 次 试验 中 就 获得 了 n 个 采样 值 XX …， 
五 ， 然 后 统计 n 次 试验 中 硬币 国 微 朝 上 的 次 数 ， 即 国 微 朝 上 事件 成 功 的 次 数 子 。 当 这 个 
试验 n 次 数 趋向 于 无 穷 时 ， 我 们 已 可 以 预见 国徽 朝 上 次 数 的 平均 值 收敛 于 随机 变量 了 的 
数学 期 望 。 当 然 也 可 换 一 种 说 法 ， 即 在 一 个 盒子 里 包含 n=100 枚 硬币 ， 我 们 每 次 摇 一 摇 
盒子 ， 然 后 清点 其 中 国徽 朝 上 的 硬币 数量 忆 我 们 连续 摇 10000 次 ， 则 我 们 可 以 预见 其 
中 国徽 朝 上 的 硬币 数 将 会 收敛 于 mn/2=50。 程 序 19-1 用 SAS 代码 可 证 明 这 一 点 : 


程序 19-1 重复 多 次 抛 n 枚 硬币 试验 其 均值 趋向 于 n/2 
data sample; 
n=100; 
xsum-0; 
do i-1 to 100000;/* 做 100000 次 试验 */ 
x-0; /*x 记录 一 次 抛 100 枚 硬币 试验 中 朝 上 的 个 数 */ 
do j = 1 to n; 
V=RAND ( ' UNIFORM' ) ; /* 连 续 均匀 分 布 生成 随机 数 v>0 . 5 概率 */ 
if v»0.5 then v-1; 
else v-0; 
x-XtVv; 
end; 


xsum- xsum * x; 
y= xsum/i; /*MiXuXdugSR EB, wik% En/2*/ 
output; 

end; 

put n- y-; 

keep x y i; 

run; 


将 试验 中 硬币 国徽 朝 上 的 个 数 x 以 及 历次 试验 国徽 朝 上 的 个 数 的 平均 数 y 作 直方 图 
〈 见 程序 19-2) 。 当 试验 次 数 足 够 时 可 以 发 现 , 其 中 国徽 朝 上 的 个 数 平 均值 将 一 枝 独 秀 ， 
即 均值 落 在 50 上 的 次 数 越 来 越 多 ， 相 比 之 下 落 在 其 他 值 上 的 次 数 就 非常 微不足道 〈 见 
图 19-1) ， 它 说 明 大 数 定律 作用 下 均值 逼近 期 望 的 过 程 。 


程序 19-2 显示 成 功 事件 发 生 次 数 x 及 其 均值 y 的 直方 图 分 布 ,呈现 一 枝 独 秀 
proc sgplot data-sample; 
title 'Histrogram'; 
histogram x; 
histogram y; 
keylegend / location-inside position-topright across-1; 
xaxis display-(nolabel); 
run; 
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Histrogram 


LE] 
<x 


19-1 数据 量 较 大 时 均值 的 频数 不 断 增长 〈 集 中 ) 


我 们 也 可 以 换 一 种 视角 来 观察 试验 的 结果 《〈 见 程序 19-3) ， 比 如 以 试验 过 程 中 国徽 
朝 上 的 个 数 的 平均 数 y 为 纵 坐标 ， 以 试验 次 数 为 横 坐 标 ， 则 可 以 看 到 随 着 试验 次 数 i 的 
增长 ， 均 值 无 限 逼 近期 望 值 50 的 过 程 〈 见 图 19-2) 。 

程序 19-3 成 功 事件 发 生 次 数 均值 与 试验 次 数 的 关系 ， 大 数 收敛 

proc sgplot data-sample; 


title 'Mean/N Plot'; 
series x-i y-y ; 


run; 
50 广 


49 


Mean/N Plot 


47 


46 
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图 19-2 均值 与 试验 次 数 的 关系 


从 图 19-2 中 可 以 看 出 ， 一 次 试验 中 抛 100 次 硬币 〈 或 同时 抛 100 枚 硬币 ) ， 朝 上 次 
数 的 平均 值 会 随 着 试验 次 数 ” 的 增 大 不 断 地 收敛 ， 其 期 望 为 50。 我 们 绘制 试验 次 数 和 国 
微 朝 上 次 数 的 平均 值 的 关系 ， 可 以 看 到 随 着 试验 次 数 的 增加 ， 样 本 均值 会 依 概 率 收敛 于 
50。 实 际 上 ， 样 本 均值 依 概率 收敛 于 总 体 均值 是 一 个 普遍 的 数学 规律 ， 用 均匀 分 布 的 抛 
Tira Xe ibn uEBjix — 7x, K 19-3 就 是 用 SAS 语言 模拟 12 BT UIS, HRS p 
连续 抛 3000 次 ， 可 以 证 明 抛 出 来 的 点 数 的 均值 都 收敛 于 期 望 3.5。 
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0 500 1000 1500 2000 2500 3000 
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图 19-3 d 12 枚 山子 均值 收敛 情况 


至 于 伯 努 利 大 数 定律 ， 频 率 n 在 很 大 时 接近 概率 也 是 非常 直观 的 。 比 如 抛 一 次 硬币 
时 获得 国徽 彰 上 和 朝 下 的 可 能 性 是 一 样 的 , 它们 遵循 的 是 离散 均匀 分 布 , BI Uniform{0, 1) 
的 等 概率 分 布 ， 同 时 也 是 Bernoullip-0.5) 的 伯 努 利 分 布 。 图 19-4 就 是 抛 100,000 次 时 
点 数 在 0 和 1 两 个 取 值 上 接近 概率 0.5〈 两 个 频数 直方 图 等 高 ， 而 总 概率 为 1) 。 


Histrogram 
50 


0.0 02 04 0:6 08 1.0 
19-4 ”频率 在 试验 次 数 很 大 时 接近 于 概率 


输出 图 19-4 结果 对 应 的 SAS 代码 如 程序 19-4 所 示 。 


程序 19-4 等 概率 抛 硬币 试验 揭示 的 大 数 定律 
data sample; 
n-100000; /* 抛 100000 次 硬币 ， 看 国徽 朝 上 和 朝 下 的 情况 是 均等 的 */ 
do i-1 to n; 
x-RAND('UNIFORM'); /* 0« x «1 */ 
if x»0.5 then x-1; 
else x-0; 
output; 
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end; 
keep x; 
run; 


proc sgplot data-sample; 
title 'Histrogram'; 
histogram x / binwidth-2; 
keylegend / location-inside position-topright across-1; 
xaxis max-1 display- (nolabel); 
run; 


我 们 观察 试验 次 数 的 增加 ,硬币 朝 上 次 数 的 平均 值 会 如 何 收敛 ， 结 果 也 发 现 收敛 到 
0.5。 频 数 具 有 稳定 性 收敛 , 事件 发 生 的 频率 可 以 代表 事件 发 生 的 概率 。 对 于 抛 硬币 试验 ， 
程序 19-5 利用 伯 努 利 试验 也 可 得 到 相同 的 试验 结果 ， 其 输出 如 图 19-5 所 示 。 


程序 19-5 ” 伯 努 利 试验 揭示 的 大 数 定律 
data sample; 
n=10000; 
xsum-0; 
do i — 1 to n; 
x-RAND('BERNOULI',0.5); /* 试 验 成 功 返 回 1 */ 
xsum-xsumtx; 
x-xsum/i; 
output; 
end; 
keep i x ; 
run; 
proc sgplot data-sample; 
series x-i y-x ; 
yaxis min-0 max-1; 
run; 


Histrogram 


0.0 
0 


500 | 1000 1500 2000 2500 3000 
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图 19-5 ” 伯 努 利 试验 揭示 大 数 条 件 下 事件 发 生 的 频率 可 代表 概率 


19.1.4 ”强大 数 定律 


概括 而 言 ， 对 于 独立 同 分 布 的 随机 序列 ， 并 且 期 望 存在 ， 若 样本 均值 以 概率 为 1 收 
敛 于 总 体 均值 ， 也 就 是 说 几乎 必然 收 化 《Almost Surely Convergence). 于 总 体 均值 ， 则 称 
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AN 1928 年 柯 尔 莫 哥 洛 夫 找 到 了 独立 同 分 布下 强大 数 定律 的 充 
要 条 件 ， 它 告诉 我 们 随 着 ”的 增 大 ， 样 本 均值 几乎 处 处 收敛 于 总 体 均值 。 


19.2 中 心 极限 定理 


中 心 极限 定理 指出 : 大 量 相互 独立 的 随机 变量 ， 其 均值 的 分 布 以 正 态 分 布 为 极限 。 
中 心 极限 定理 也 并 不 是 一 个 而 是 一 组 定理 。 包 括 棣 莫 弗 - 拉 普 拉 斯 定理 、 林 德 伯 格 - 列 
维 定理 、 林 德 伯 格 - 费 勒 定理 等 。 中 心 极限 定理 的 重要 意义 在 于 ， 根 据 定理 的 结论 其 他 
概率 分 布 可 用 正 态 分 布 作为 近似 。 比 如 二 项 分 布 在 Bin(n, p) 相当 大 时 ,p 接近 于 0.5 时 
近似 Nnp, np (1-p))， 泊 松 分 布 POA) 当 取 样 样本 数 很 大 时 近似 NA, 2) 分 布 。 

最 早 的 中 心 极限 定理 是 法 国 数学 家 棣 莫 弗 在 1733 年 发 现 并 由 拉 普 拉 斯 进行 扩展 形 
成 的 ， 但 更 一 般 的 随机 变量 服从 中 心 极限 定理 则 是 1901 年 由 俄国 数学 家 里 雅 普 诺 夫 进 
行 精确 证 明 。 中 心 极限 定理 包括 如 下 几 种 形式 : 

COD 棣 莫 弗 - 拉 普 拉 斯 定理 : 服从 二 项 分 布 Bin(n, p) 的 随机 变量 序列 ， 其 分 布 以 
JB np, Jj 2528 np(1-p) 的 正 态 分 布 为 极限 。 这 解释 了 高 尔 顿 杀 板 试验 中 小 球 下 落 累 
积 的 高 度 曲 线 服从 钟 形 曲 线 。 高 尔 顿 钉 板 是 生物 统计 学 家 弗朗西斯 * 高 尔 顿 发 明 用 
排 钉子 模拟 N 重 伯 努 利 试验 验证 中 心 极限 定理 的 试验 装置 。 

RIRE X, 为 具有 参数 wp (0 < < 1) 的 二 项 分 布 ， 则 对 于 任意 实数 x 有 


X,—np x a 
NE AJ. 

(2) 林 德 伯 格 - 列 维 定理 : 独立 同 分 布 且 具有 有 限 数学 期 望 和 方差 的 随机 变量 序列 ， 
其 标准 化 和 以 标准 正 态 分 布 为 极限 。 它 是 棣 莫 弗 - 拉 普 拉 斯 定理 的 扩展 ， 该 定理 也 称 为 
独立 同 分 布 的 中 心 极限 定理 。 

设 随 机 变量 X, X. ee 相互 独立 ， 服 从 同一 分 布 ， 且 具有 相同 的 数学 期 望 和 方差 : 

X,-nu 

EQG)-u, DXJP # 0 (k=l, 2, =, n)， 则 随机 变量 y, AT 的 分 布 函数 FL QC) 对 


no 


任意 实数 x 有 
m x a 
mem r F sbe 
G) 林 德 伯 格 - 费 勒 定理 : 在 满足 一 定 条 件 时 ， 独 立 但 不 同 分 布 的 随机 变量 序列 的 
“标准 化 和 ” 依然 以 标准 正 态 分 布 为 极限 。 该 条 件 包括 : 
e 随机 变量 序列 为 独立 但 不 同 分 布 ， 期 望 囊 多 -0 且 具 有 有 限 方差 
e 如 果 对 每 个 s > 0， 序 列 满足 如 下 林 德 伯 格 条 件 : imP- rS E|? (i eo. ] Fo- 


假定 7 个 独立 随机 变量 而 , X …, 瑟 ， 每 一 个 总 服从 任意 概率 分 布 Pen x, 0x), 
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它 具有 有 限 的 均值 WW 和 方差 ol, MJERE X = 所 Rp ues 
2e 


i=l 
分 布 的 极限 累积 分 布 函数 (CDF) o PREJ IUE, REGE X Lys RA 
na 
O, 


Bm 的 正 态 分 布 。 本 定理 是 林 德 伯 格 - 列 维 定理 的 扩 


n 
展 ， 是 中 心 极限 定理 的 高 级 形式 。 
虽然 中 心 极限 定理 有 多 种 形式 的 表述 ， 但 它们 共同 指出 受 许多 小 而 无 关 的 随机 效应 
影响 的 数据 会 呈现 近似 正 态 分 布 。 中 心 极限 定理 的 核心 思想 是 : 如 果 相互 独立 的 随机 变 
量 服 从 具有 有 限 均值 和 方差 的 任意 分 布 ， 随 机 变量 的 均值 趋 于 正 态 分 布 。 这 一 点 无 论 随 
机 变量 服从 什么 统计 分 布 ， 它 都 满足 这 个 定理 。 


均值 为 pr= 从 、 方 差 为 oy = 


19.2.1 大 数 定律 与 中 心 极 限定 理 关 系 


大 数 定律 和 中 心 极限 定理 共同 构成 了 统计 分 析 的 基本 理论 基础 。 独 立 同 分 布 的 随机 
事件 ， 在 观测 次 数 足 够 大 时 ， 事 件 的 频率 会 趋 于 一 个 稳定 的 概率 值 〈 期 望 值 ) ， 这 是 由 
大 数 定律 (LN) 所 描述 的 。 而 事件 的 分 布 则 趋 近 于 一 个 稳定 的 正 态 分 布 ， 这 是 中 心 极 
IRE (CLT) 所 描述 的 ， 该 正 态 分 布 的 期 望 值 就 是 大 数 定律 中 的 那个 概率 值 。 它 们 都 
用 来 描述 独立 同 分 布 随机 变量 和 的 渐进 表现 , 但 它们 是 在 不 同 收敛 速率 和 前 提 条 件 下 
大 数 定律 说 的 是 依 概率 收敛 或 者 几乎 必然 收敛 于 某 个 常数 ， 而 中 心 极限 定理 说 的 是 按 
分 布 收敛 ， 具 有 更 深刻 的 含义 。 图 19-6 展示 了 这 些 定律 和 定理 的 核心 内 容 。 

相互 独立 ， 期 望 和 方 。。 独立 但 不 同 分 布 的 随机 变 


差 存在 ， 当 n 趋 于 无 穷 。 量 序列 之 标准 化 和 依然 以 
大 时 样本 均值 接近 期 。 标准 正 态 分 布 为 极限 ， 若 独立 同 分 布 ， 有 限期 记 


german Sure WULMABRKARA—— 和 方差 ， 标 准 化 和 以 标 
样本 均值 依 ” 切 比 雪夫 大 数 定律 林 德 伯 格 - 费 勒 定理 。 准 正 态 分布 为 极限 
试验 次 数 很 pa aT EE M a 
时 ,事件 六 gx - p” 5 v 
Aunma 辛 钦 大 数 定律 林 德 伯 格 - 列 维 定理 EAE on 
代替 概率 (1-p) ) 为 极限 


i 标 英 弗 - 拉 普 拉 斯 定理 

在 随机 过 程 中 ， 随 机 变量 的 定律 心 极限 定理 大 量 相互 独立 的 随机 变量 ， 
预期 值 与 实际 值 之 间 的 百 分 rg P pia 具有 有 限 的 均值 和 方差 的 任 
比 差 随 痢 试 验 次 数 的 增加 直 千 分 布 , 随机 变量 的 均值 趋 
jio HERES, Hi FES. 按 分 布 收敛 

xo $ » 

X-nu X—N (i5) 
RULHAHSIRR RS 
从 一 个 包含 x 个 白 球 m 个 — 二 项 定理 kne LORD UN 
黑 球 的 袋子 中 抽取 X 个 球 ， 
其 中 有 1 个 白 球 的 概率 
P Gi) …Hyper (N,m,n) 统计 学 定理 


19-6 主要 统计 学 定律 / 定理 的 关系 
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而 表 19-1 展示 了 大 数 定律 与 中 心 极限 定理 的 关系 。 


表 19-1 
大 数 定律 


大 数 定律 与 中 心 极限 定理 的 关系 


揭示 了 大 量 随机 变量 的 平均 结果 


中 心 极 限定 理 
揭示 大 量 随机 变量 的 均值 
分 布 情况 


按 概率 收敛 
p 


几乎 确定 收 化 


as 


按 分 布 收敛 
《分布 函数 的 收敛 ) 


独立 同 分 布 的 随机 变量 


只 需 相互 独立 分 布 ， 
但 要 求 随机 变量 的 期 
望 和 方差 均 存在 


弱 大 数 定律 


样本 数 n 趋 于 无 
穷 时 ， 样 本 均值 按 
概率 收敛 于 期 望 。 
但 并 未 排除 偶尔 大 
的 偏差 


辛 钦 大 数 定律 
不 要 求 随机 变量 的 
方差 存在 ， 需 要 独 
立 同 分 布 的 条 件 


强大 数 定律 


样本 数 n 趋 于 无 穷 时 ， 
样本 均值 几乎 确定 收 
伍 于 期 望 。 均 值 不 可 
能 偏离 太 多 


切 比 雪夫 大 数 定律 


中 心 极 限定 理 


位 于 其 平均 数 夺 | 样本 均值 按 分 布 趋向 于 正 


个 标准 差 范围 内 
的 比例 总 是 至 少 
5 1E < E. 
在 2,3,5 I, EDH 
3/4=75%, 8/9—88.996 
和 24/25=96% 的 数据 
位 于 2.3.5 个 标准 差 
范围 内 


切 比 雪夫 大 数 定律 是 
切 比 雪夫 不 等 式 的 推 
论 ， 是 大 数 定律 的 一 
般 公式 。 它 由 切 比 雪 
夫 不 等 式 P{|z-EXI 
<e} 之 1-DWe S 
出 在 区 间 (x 土 to) 上 
的 概率 


态 分 布 。 说 明 的 是 在 一 定 
条 件 下 ， 大 量 独立 随机 变 
量 的 平均 数 是 以 正 态 分 布 
为 极限 。 


林 德 伯 格 - 列 维 定理 
独立 同 分 布 的 大 数 定律 


林 德 伯 格 - 费 勒 定理 

独立 但 不 同 分 布 的 随机 变 
量 序列 的 标准 化 和 服从 标 
准 正 态 分 布 


伯 努 利 大 数 定律 

试验 次 数 很 大 时 , 
可 以 用 事件 发 生 的 
频率 来 代替 事件 的 
概率 


19.2.2 图形 化 证 明 


TREE - 拉 普 拉 斯 中 心 

二 项 分 布 的 极限 分 布 是 正 
态 分 布 ， 说 明 实践 中 可 用 
大 样本 近似 处 理 


下 面 我 们 还 是 用 前 面 的 抛 硬币 来 做 例子 ( 见 程序 19-6) , 不 过 这 次 做 100000 次 试验 ， 
单 次 试验 中 抛 3000 枚 硬币 或 重复 抛 3000 次 硬币 ， 检 查 其 国 微 朝 上 的 枚 数 x， 或 者 朝 上 
枚 数 的 平均 值 3000。 然 后 用 PROC SGPLOT 来 查看 对 应 的 直方 图 、 概 率 密度 曲线 以 及 
正 态 分 布 曲线 。 通 过 对 比 可 以 发 现 其 分 布 确实 逼近 正 态 分 布 曲线 〈( 见 图 19-7) 。 
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程序 19-6 抛 硬币 试验 图 形 化 证 明 中 心 极 限定 律 
data sample; 
do i-1 to 100000; /* 做 100000 次 试验 */ 
x-0; 
n-3000; 
do j= 1 to n; /* 一 次 试验 中 抛 3000 次 硬币 ， 看 朝 上 的 次 数 */ 
xx-RAND('UNIFORM'); /* 均匀 分 布 : 0 < x < 1 */ 
if xx»0.5 then X=X+17 


end; 
y= x/n; /* 当 n 枚 数 足 够 多 时 ， 其 平均 值 y 或 总 和 x 的 分 布 逼 近 正 态 分 布 */ 
output; 
end; 
keep x y ; 
run; 


proc sgplot data-sample; 
title 'Histrogram'; 
histogram y 
density y / type-normal legendlabel-'Normal' 
lineattrs-(pattern-solid color=red); 
density y / type-kernel legendlabel-'Kernel' 
lineattrs-(pattern-solid color=blue); 
keylegend / location-inside position-topright across-1; 
xaxis display- (nolabel); 
run; 


Histrogram 


13.5 140 145 15.0 15.5 16.0 
图 19-7 重复 试验 的 均值 分 布 逼 近 正 态 分 布 


在 上 面 的 试验 中 ， 获 得 硬币 正 反面 的 概率 是 0.5， 单 次 试验 中 的 重复 次 数 为 
n=3000， 该 问题 的 实质 就 是 二 项 分 布 Binomial (7-3000, p-0.5) 问题 。 所 以 当 重 复 次 数 n 
很 大 时 ， 棣 莫 弗 - 拉 普 拉 斯 中 心 极限 定理 证 明 二 项 分 布 近似 于 正 态 分 布 。 这 个 抛 硬币 试 
验 在 SAS 里 也 可 以 直接 使 用 SAS 二 项 分 布 Binomial(n, p) 进行 模拟 ， 其 中 n=3000 时 已 
经 很 好 地 逼近 正 态 分 布 。 见 程序 19-7 及 其 输出 图 19-8 所 示 。 
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程序 19-7 ， 棣 莫 弗 - 拉 普 拉 斯 中 心 极 限定 理 的 图 形 化 证 明 
data sample; 
do i = 1 to 100000; 
p-0.5; n-3000;/*n-1 n=2 n-30 有 锯齿 n-3000 完美 正 态 分 布 */ 
x-RAND('BINOMIAL', p, n); /*n-1,2,...*/ 
output; 
end; 
keep x; 
run; 
proc sgplot data-sample; 
title 'BINOMIAL Distribution (n-3000, p-0.5 )'; 
histogram x ; 


density x / type-normal legendlabel-'Normal' 
lineattrs-(pattern-solid color=red); 
density x / type-kernel legendlabel-'BINOMIAL' 
lineattrs-(pattern-solid color=blue); 
keylegend / location-inside position-topright across-1; 
xaxis display-(nolabel); 
run; 


BINOMIAL Distribution (77-3000, p=0.5) 


/ — —Normal 
— BINOMIAL 

5 

4] 
2 
R3] 
wm 

2 


0 vi Ih. 


1350 — 1400 1450 1500 1550 1600 1650 
图 19-8 二 项 分 布 近似 于 正 态 分 布 〈 棣 莫 弗 - 拉 普 拉 斯 中 心 极限 定理 ) 


另外 ， 也 可 以 使 用 抛 规 子 来 证 明 这 一 点 。 我 们 已 知 获得 仍 子 6 个 面 的 可 能 性 也 是 相 
等 的 (1/6) ， 遵 循 离散 均匀 分 布 。 中 心 极限 定理 并 不 要 求 数据 的 分 布 类 型 ， 而 是 要 求 是 
有 限 方差 即 可 。 为 此 ， 我 们 编写 模拟 抛 般 子 的 SAS 代码 如 程序 19-8 所 示 ， 验 证 当 n 较 
大 时 是 否 服从 正 态 分 布 ， 特 别 注意 其 均值 逼近 3.5， 而 方差 逼近 于 0〈 见 图 19-9) 。 


程序 19-8 ” 抛 般 子 试验 证 明 中 心 极限 定理 
data sample; 
do i-1 to 10000; 
psum-0; 
n=3000; /* 同 时 抛 3000 HEF, 记录 它们 的 点 数 */ 
do j = 1 ton; 
p=floor (RAND('UNIFORM')*6)+1 ; /* 0<x<1 */ 
psum=psum+p; 
end; 
x=psum/n; 
output; 
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end; 
keep x ; 
run; 


proc sgplot data-sample; 
title 'UNIFORM Distribution '; 
histogram x : 


density x / type-normal legendlabel-'Normal' 
lineattrs-(pattern-solid color=red); 
density x / type-kernel legendlabel-'UNIFORM' 
lineattrs-(pattern-solid color=blue); 
keylegend / location-inside position-topright across-1l; 
xaxis display- (nolabel); 
run; 


UNIFORM Distribution 


3.40 3.45 3.50 3.55 
19-9 ” 抛 般 子 证 明 中 心 极限 定理 


从 上 图 中 可 以 看 出 ， 其 核 密度 分 布 曲线 和 正 态 分 布 曲线 非常 贴 合 ， 说 明 样 本 的 统计 


分 布 是 允 近 正 态 分 布 的 。 通 过 检查 其 均值 和 方差 ( 见 程序 19-9) 逼近 于 3.5 和 0 也 可 说 
明 这 一 点 。 


proc means data-sample mean var skewness kurtosis; 
run; 


分 析 变 县 : x ml 
sa|  »s»| an| wx 


35001849 0.000966660 00234725  0.0652270 
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19.2.3 ”实际 用 途 


在 解决 现实 问题 中 ， 棣 莫 弗 - 拉 普 拉 斯 定理 是 否 也 有 什么 实用 价值 ? 实际 上 ， 该 定 
理 的 断言 可 以 求解 概率 近似 值 。 比 如 某 保险 公司 多 年 的 统计 资料 表明 ， 理 赔 用 户 中 由 于 
被 盗 而 向 保险 公司 索赔 占 比 20%， 现 在 随机 抽查 100 个 理赔 用 户 ， 请 问 因 被 盗 而 向 保险 
公司 索赔 的 户 数 不 少 于 14 户 ， 且 不 多 于 30 的 概率 近似 值 是 多 少 。 

这 种 问题 的 求解 首先 是 保险 公司 是 否 因 被 盗 而 对 用 户 进行 赔偿 ， 其 赔偿 户 数 卫 服 从 
二 项 分 布 即 了 ~ B (n, p)。 也 就 是 了 ~ B (100, 0.2) 的 二 项 分 布 。 根 据 二 项 分 布 的 期 望 和 方 
ŽAR: WE EX )=np=20， 方差 D(X )=np(1-p)=100X0.2X0.8=16。 

根据 棣 莫 弗 - 拉 普 拉 斯 定理 : 二 项 分 布 的 极限 形式 为 正 态 分 布 ， 因 此 我 们 就 可 用 正 
态 分 布 Nu, o”)=N(20, 16) 来 盘 近 。 于 是 问题 就 转化 为 计算 索赔 用 户 数 在 14~30 之 间 的 概 
率 近 似 值 ， 即 求 P{14 « X « 30}， 首 先 需要 将 正 态 分 布 变 换 为 标准 正 态 分 布 : 


Passo) p( 2 a3 
o o c 


N 


T8 4-20, 074 RA, 得 到 PU4<X<30)-P| - 1.53 <25]， 此 时 查 标准 正和 
分 布 表 〈 参 见 附录 3: 标准 正 态 分 布 累积 概率 表 ) 可 得 : 


P(14 < X < 30) = $2.5)-4(-1.5)-92.5)-(1-0(1.5))-0.9938-(1-0.9932)-0.9269 
也 就 是 说 ， 随 机 抽查 100 个 索赔 用 户 ， 因 被 盗 而 索赔 户 数 在 14-30 户 的 概率 应 该 是 
92.69%。 这 个 计算 结果 也 可 在 SAS 中 直接 计算 求 得 ， 如 程序 19-10 所 示 。 


程序 19-10 棣 莫 弗 - 拉 普 拉 斯 定理 的 现实 意义 
data null ; 
/* 服 从 二 项 分 布 : B(n,p) ,分 别 计算 其 期 望 EX 和 方差 D (X) */ 
n=100; p=0.2; 
x0-14; x1-30; 
/* 用 正 态 分 布 N(np, np(1-p) KDE - 棣 莫 弗 - 拉 普 拉 斯 定理 */ 
u-n*p; 
dx-n*p* (1-p):; 
sx0= (x0-u) /sqrt (dx) ; 
sxl- (xl-u)/sqrt (dx); 


p xl-cdf("Normal", sxl); 
p x0-cdf("Normal", sx0); 


p xOxl-p xl- p x0; 
put " 正 态 通 近 p=" p xO0x1 6.4 "(" p x0 6.4 ", " p x1 6.4 ")"; 


/* 用 二 项 分 布 直接 计算 也 是 可 以 的 */ 

bp x0-cdf("Binomial", x0, p, n); 

bp xl-cdf("Binomial", xl, p, n); 

bp xO0xl-bp xl- bp x0; 

put "二 项 分 布 p-" bp x0x1 6.4 "(" bp x0 6.4 ", " bp xl 6.4 ")"; 
run; 


运行 上 面 的 程序 ， 系 统 输出 如 下 : 


正 态 通 近 p-0.9270(0.0668, 0.9938) 
二 项 分 布 p-0.9135(0.0804, 0.9939) 
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理解 数据 分 析 的 真 谤 应 深刻 理解 大 数 定律 和 中 心 极限 定理 ， 另 外 还 有 两 个 有 关 基 础 
分 布 的 断言 需要 特别 关注 ， 其 中 一 个 断言 是 超 几何 分 布 的 极限 分 布 是 二 项 分 布 ， 即 二 项 
定理 ; 另 一 个 断言 是 二 项 分 布 的 极限 分 布 是 泊 松 分 布 ， 即 泊 松 定理 。 关 于 统计 分 布 详情 
可 参阅 第 20 章 有 关内 容 。 


统计 分 布 


统计 分 布 研究 的 是 特定 变量 的 观测 值 在 分 布 形态 上 的 特征 。 定 量变 量 可 以 分 为 离散 
变量 和 连续 变量 两 大 类 ， 因 此 数据 分 布 也 可 以 分 为 离散 型 分 布 和 连续 型 分 布 两 大 类 别 ， 
其 中 最 重要 的 统计 分 布 是 正 态 分 布 ， 但 各 种 统计 分 布 在 特定 条 件 下 又 紧密 相关 ， 从 而 构 
成 一 个 衡量 不 确定 性 中 所 蕴含 确定 性 的 完整 逻辑 网 络 。 各 种 统计 分 布 的 存在 表明 ， 上 帝 
与 你 一 起 抛 般 子 时 也 得 好 好 思考 一 下 如 何不 被 你 识破 ! 下 面 从 最 直观 的 统计 分 布 “均匀 
分 布 ”开始 讲 起 。 


20.1 均匀 分 布 


均匀 分 布 Uniform Distribution) 也 称 和 矩形 分 布 ， 因 为 该 分 布 具有 等 概率 特性 ， 所 以 
又 称 等 概 分 布 。 均 匀 分 布 的 变量 既 可 以 是 连续 变量 〈 见 图 20-1 上 ) ， 也 可 以 是 离散 变量 
〈 见 图 20-1 F) 。 比 如 均匀 分 布 在 区 间 [a, 5] 之 间 的 连续 变量 , 其 分 布 称 为 连续 均匀 分 布 ， 
记 为 Unif(a, 5)。 而 均匀 分 布 在 区 间 [a, 5] 之 间 的 离散 变量 ， 其 分 布 称 为 离散 均匀 分 布 ， 记 
为 Unif {a,…, b} 。 两 者 的 概率 密度 曲线 P(x) 和 累积 分 布 曲线 D(x) 分 别 如 图 20-1 所 示 。 
PG) DG) 


图 20-1 均匀 分 布 《 上 为 连续 . 下 为 离散 ) 


等 概率 分 布 是 人 们 能 观察 到 的 最 直观 的 分 布 特征 ， 比 如 抛 硬 币 可 以 得 到 正 反 面 ， 分 
别 记 为 0 和 1 的 话 ， 则 抛 硬币 出 现 正 反面 和 反面 的 次 数 就 服从 离散 均匀 分 布 Unif(0, 1} 。 
同 理 ， 抛 一 个 麻将 角 子 可 以 得 到 6 个 数字 ， 得 到 任何 一 个 数字 的 概率 是 均等 的 ， 则 称 抛 
TOC HEIL SORUIRUA. Unif{1, 2. 3, 4. 5, 6} 的 离散 均匀 分 布 。 连 续 均匀 分 布 则 不 然 ， 它 在 
区 间 上 任何 一 个 点 上 都 可 能 出 现 ， 因 此 连续 均匀 分 布 Unif0. 1) 则 可 能 出 现 大 于 等 于 0 
且 小 于 等 于 1 的 任何 一 个 小 数 ， 我 们 不 可 能 枚 举 所 有 可 能 出 现 的 情况 。 
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对 于 每 一 种 分 布 特征 ， 最 重要 的 是 抓 住 其 概率 密度 函数 和 累积 分 布 函数 特征 以 及 4 个 最 
重要 的 统计 量 : 均值 、 方 差 、 偏 度 和 峰 度 。 连 续 均匀 分 布 的 概率 密度 函数 和 累积 分 布 函数 为 
0, x«a 
1 


P(x)- , a€x&b 


0, xb 
0. 


D(x)- 


a 


l, x>b 
其 4 个 核心 统计 量 : E 7726 07. WE y, EREN y 28 


nina) 


i 
5 
对 于 离散 型 变量 ， 离 散 均匀 分 布 的 概率 密度 函数 和 分 布 函数 如 下 : 


0, xm 
P(x)= l >, a€x&b 
b-a«l 
0, xb 
0, xg 
D(x)= Ec-usd a€xxb 
b-a 
l xb 
其 均值 和 方差 为 i 
rrr) 


s | 2 
o? -u (6-2) -1) 
实际 上 ， 高 散 型 均匀 分 布 的 总 体 期 望 k 和 方差 a 与 a 和 4b 具体 值 并 没什么 关系 ， 
而 是 与 变量 可 能 的 取 值 数量 N (样本 空间 ) 有 关 。 比 如 抛 硬币 只 有 两 种 可 能 的 情况 则 
N-2, MüBL-T H8 6 种 可 能 的 情况 则 N=6。 因此 ， 对 于 离散 均匀 分 布 的 几 个 核心 统计 量 
也 可 以 表示 如 下 : 
4=7(N+1) 
i 
o E 7 I)(N +1) 
A-0 
6(N* +1) 


5h 5N Nt) 
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比如 扔 麻将 仍 子 ， 总 的 可 能 选择 为 6 (6 个 面 ) ， 得 到 每 个 面 上 的 数字 为 1.2,…, 6， 
其 中 得 到 每 个 面 的 概率 都 是 16， 这 是 一 个 离散 型 均匀 分 布 ， 代 入 上 面 的 公式 可 知 其 总 体 
均值 ， 即 数学 期 望 u-(a-5y2-(1-6)2-3.5.. i P571 Æ o"-[(57a1) -1]/12-35/12-2.9166. 
既然 离散 型 均匀 分 布 分 布 的 上 下 限 a 和 2 与 具体 值 没什么 关系 ， 我 们 也 可 直接 
使 用 样本 空间 N=6 进行 计算 ， 则 总 体 均值 y=(N+1)/2=(6+1)/2=3.5， 总 体 方差 
02=(N-1)CVHD)/12=5X7T/12=2.9166。 

在 SAS 中 ， 我 们 可 用 程序 20-1 生成 均匀 分 布 的 随机 数 ， 然 后 检查 它 生成 的 随机 变 
量 服从 何 种 概率 分 布 曲线 。 从 图 20-2 中 可 以 看 出 在 0-1 之 间 所 有 的 直方 图 几乎 是 等 高 构 
成 一 个 矩形 分 布 ， 其 核 密 度 曲线 也 显示 为 一 个 平 顶 的 矩形 形状 。 


程序 20-1 连续 均匀 分 布 随机 数 的 直方 图 和 核 密度 估计 曲线 
data sample; 
do i = 1 to 100000; 
x-RAND('UNIFORM') ; /* 0<x<1 */ 
output; 


proc sgplot data=sample; 
title 'UNIFORM Distribution '; 
histogram x 


density x / type=normal legendlabel='Normal' 
lineattrs-(pattern-solid color=red); 
density x / type=kernel legendlabel='UNIFORM' 
lineattrs-(pattern-solid color=blue); 
keylegend / location=inside position-topright across-1; 
xaxis display-(nolabel); 
run; 


proc means data-sample mean var skewness kurtosis; 


run; 
系统 输出 为 
UNIFPRM Dostribution 
2.0: 一 一 Nomal 
———UNIFPRM 
1.5] 
X 
不 1.0 
gu 
0.5 
分 析 变量 : x 
均值 LI Ld ut 
0.0 0.4982992 0.0832798 0.0064359 -1.1981852 
ET 0.0 0.5 10 1.5 |, ue enm nl 


20-2 ”均匀 分 布 的 核 密度 曲线 与 基本 统计 量 
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除了 均匀 分 布 支持 离散 型 和 连续 性 变量 外 ， 大 部 分 的 统计 分 布 分 别 适 用 于 离散 型 变 
量 或 者 连续 型 变量 。 因 此 统计 分 布 可 分 为 离散 型 分 布 和 连续 型 分 布 两 大 类 ， 下 面 分 别 介 
绍 它们 。 


20.2 离散 型 统计 分 布 


20.2.1” 伯 努 利 分 布 


只 有 两 种 可 能 结果 的 单 次 随机 试验 称 为 伯 努 利 试 验 ， 比 如 抛 硬币 试验 。 如 果 定 义 国 
微 一 面 朝 上 为 成 功 ， 记 为 1， 则 相反 的 情况 国徽 朝 下 定义 为 试验 失败 ， 记 为 0。 伯 努 利 
分 布 CBernoulli Distribution) 是 单 次 试验 中 只 有 两 种 可 能 结果 的 离散 分 布 ， 假 定 伯 努 利 
事件 成 功 发 生 的 概率 记 为 p?， 则 失败 的 概率 为 9=1-P， 伯 努 利 分 布 通常 记 为 Bemp). Hi 
一 枚 正常 硬币 国 微 朝 上 的 概率 服从 p=0.5 的 伯 努 利 分 布 ， 但 如 果 有 人 对 硬币 动 过 手脚 ， 
比如 该 硬币 国徽 的 反面 采用 密度 更 大 的 铅 金属 制作 而 成 ， 则 国徽 超 上 的 概率 会 服从 p > 
0.5 的 伯 努 利 分 布 ， 如 p=0.6。 伯 努 利 分 布 图 形 如 图 20-3 所 示 。 
P (n) for p=0.6 

0.6 

0.5 

0.4 

0.3 


02 
0.1 


0 1 
K 20-3 伯 努 利 分 布 


其 中 表示 试验 失败 或 成 功 ， 分 别 用 0 和 1 表示。 所 以 p(n=0) 和 p(n=1) 分 别 表示 
失败 和 成 功 的 概率 。 即 抛 若干 次 硬币 ， 国 微 朝 下 的 次 数 和 朝 上 的 次 数 与 总 的 抛 硬币 次 数 
的 比 。 也 就 是 说 抛 一 次 硬币 就 是 一 个 p=g=1/2 的 伯 努 利 试验 ， 国 征 朝 上 和 朝 下 概率 分 布 
服从 伯 努 利 分 布 。 从 这 个 角度 讲 ， 伯 努 利 分 布 是 最 简单 的 离散 分 布 ， 也 是 构成 其 他 复杂 
离散 分 布 的 基础 。 伯 努 利 分 布 的 概率 密度 函数 为 


1-p.n-0 
P(n)= 
WS] n» 


为 简便 起 见 , 伯 努 利 分 布 的 概率 密度 函数 通常 记 为 Pn)=p"(1-p)”, 其 中 可 为 0 或 1， 
分 别 表示 试验 失败 和 试验 成 功 。 相 应 的 累积 分 布 函数 为 
l-p.n-0 


p(n-{ La-l 
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为 简便 起 见 ， 伯 努 利 的 累积 分 布 函数 通常 写作 D(n)-(1-p)“。 
伯 努 利 分 布 的 4 个 核心 统计 量 : 均值 、 方 差 、 偏 度 和 峰 度 分 别 为 


若 重 复 和 次 的 独立 伯 努 利 试验 中 ， 每 次 试验 都 只 有 两 种 可 能 的 结果 ， 两 种 结果 的 发 
生 与 否 相 互 独立 ， 与 其 他 各 次 的 试验 结果 无 关 ， 事 件 发 生 与 否 的 概率 在 每 一 次 独立 试验 
中 都 是 固定 不 变 的 ， 则 这 一 系列 试验 称 为 Y 重 伯 努 利 试验 。 

设 为 重复 试验 次 数 ，n 为 重复 次 试验 中 成 功 的 次 数 。 定 义 估 计 记 为 重复 入 次 试 


验 中 的 成 功 概率 为 — ， 则 六 次 试验 中 获得 半 次 成 功 的 概率 为 
N s 
" (sra or 
其 中 | >” putet URRATSA BAEZA, duis 
20-4 所 示 。 


图 20-4 二 项 式 系数 构成 帕斯卡 三 角 式 


则 估计 的 期 望 值 可 以 如 下 算出 
CPM 
n0 AH l-p 
可 以 看 出 估计 量 A 确 实 是 总 体 均值 p 的 无 偏 估计 。NN 重 伯 努 利 试验 中 成 功 次 数 服从 
二 项 分 布 。 从 伯 努 利 分 布 可 以 衍生 出 以 下 各 种 离散 型 统计 分 布 : 
COD 在 入 次 试验 中 成 功 的 次 数 ， 服 从 二 项 分 布 。 
(2) 第 1 次 成 功 之 前 的 失败 次 数 ， 服 从 几何 分 布 。 
G) 第 x 次 成 功 之 前 的 失败 次 数 ， 服 从 负 二 项 分 布 。 
在 SAS rh, £i] X-Bem(0.6) 直方 图 如 程序 20-2 所 示 ， 从 直方 图 的 高 度 可 以 看 出 ， 
0 和 1 两 种 情况 分 别 占 40% 和 60%， 总 的 概率 为 1.0( 见 图 20-5) 。 
程序 20-2 Bern (0.6) 的 伯 努 利 分 布 直方 图 和 参考 正 态 分 布 曲线 


data sample; 
do N = 1 to 100000; 


38208 


p=0.6; 
x = rand("BERNOULLI", p); /*0 < p X 1 */ 
output; 


proc sgplot data-sample; 
title 'BERNOULLI Distribution (p-0.6)'; 
histogram x / binwidth-0.5 binstart-0 ; 
density x / type-normal legendlabel-'Normal' 
lineattrs-(pattern-solid color=red); 
run; 


系统 输出 如 图 20-5 所 示 。 


BERNOULLI Distribution (p=0.6) 


图 20-5 p=0.6 的 伯 努 利 分 布 


Aita t 


我 们 可 以 检查 该 数据 的 均值 、 方 差 、 偏 度 系数 和 峰 度 系数 ， 根 据 公式 计算 其 均值 为 
0.6《 伯 努力 试验 成 功 次 数 的 期 望 )， 方 差 为 pX(1-p)=0.6X(1-0.6)=0.24。 同 时 也 可 用 程 


序 20-3 计算 相关 统计 量 进行 验证 : 
程序 20-3 验证 Bern (0.5) 随机 数 的 基本 统计 量 


proc means data-sample mean var skewness; 
run; 


系统 输出 如 图 20-6 所 示 。 


分 析 变 量 : x 
sa 52 LL sr 
0.6015800 0.2396839 -0.4149803 -1.8278279 
N Pte P PP Pm namen 


20-6 p-0.6 的 伯 努 利 分 布 的 均值 


20.2.2 ”二 项 分 布 


二 项 分 布 (Binomial Distribution) 是 六 次 重复 独立 的 伯 努 利 试验 中 ， 获 得 次 成 功 
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的 离散 概率 分 布 ， 通 常 记 为 卫 Bin(N, p)。 二 项 分 布 简单 地 说 就 是 把 重复 入 次 抛 硬币 当 
作 一 次 试验 ， 考 察 其 中 硬币 朝 上 的 次 数 为 n 的 分 布 情况 。 二 项 分 布 的 期 望 和 方差 是 伯 努 
利 分 布 期 望 和 方差 的 NN 倍 〈( 因 为 重复 N 次 ) ， 因 此 也 可 以 说 伯 努 利 分 布 是 二 项 分 布 N=1 
的 特例 。 二 项 分 布 的 概率 密度 函数 为 


OD (Jean py" 


sef azman, 即 C% -— 8 . B 20-7 展示 了 N-20 1, MENR 
n nl(N—n)! 


图 案 朝 上 的 次 数 的 分 布 ， 其 中 p=g=1/2。 


BINOMIAL Distribution (p=0.5) 


5 10 15 
20-7 N-20, P-0.5 的 二 项 分 布 


二 项 分 布 的 均值 、 偏 度 系 数 和 峰 度 为 
u- N(p*1-p)p- Np 
o^ - Np(1- p) 
ss 1-2p | 4-p 
' Jwpü-p) VMNg 
" _6p’ 一 6P+1 —1-6pq 
” Np(l-p) npg 
二 项 分 布 最 典型 的 例子 是 重复 扔 硬币 ， 但 它 将 重复 扔 入 次 硬币 当 作 是 单 次 试验 ， 其 
中 了 次 正面 朝 上 的 概率 就 是 一 个 二 项 分 布 ， 记 为 Bin(N, p)。 ERNA XRK N EHZ 
利 试 验 中 成 功 的 次 数 ， 试 验 成 功 的 概率 表示 为 p， 则 了 的 概率 分 布 服从 二 项 分 布 ， 记 为 
X-Bin(N, p)。 本 书 附录 1 列 出 了 常用 的 二 项 分 布 累积 概率 表 ， 用 于 当 N 不 是 很 大 时 直接 
查 表 。 
当 试验 次 数 N=1 时 ， 服 从 二 项 分 布 六 Bin(1, p)， 它 等 价 于 伯 努 利 分 布 YBern(p)， 
也 等 价 于 区 间 [0, 1] 上 的 离散 均匀 分 布 Unif{0, 1}。 
一 般 地 ， 假 定 某 事 件 发 生 的 概率 为 p， 在 次 试验 中 ， 事 件 发 生 x 次 的 概率 就 是 二 
项 分 布 。 比 如 假设 某 种 药物 治愈 率 为 0.6， 则 如 果 有 100 个 人 中 及 n 个 人 痊愈 的 概率 为 
Bin(100, 0.6)， 它 等 于 Ch p'(1-p) "-C740.6(1-0.6) 7, FẸ} n=1, 2,…, 100。 
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e 若 Z 服 从 伯 努 利 分 布 ， 则 NN 个 伯 努 利 分 布 的 和 ( 重 伯 努 利 试 验 的 成 功 次 数 ) 服 
从 二 项 分 布 ， 即 下 ~ Dem(p) = 2X, ~ Bin(N, p) 


e 对 于 二 项 分 布 Bin(N, p), 当 重复 次 数 N 很 大 时 ， 且 p 接 近 于 0 或 1 时 ， 二 项 分 布 近 
似 于 泊 松 分 布 PuCVp)。 根 据 泊 松 定理 ， 二 项 分 布 的 极限 分 布 为 泊 松 分 布 ， 即 若 当 


Nc Wr, Npoà, A Cap” (1 一 p)" 2Teaa- 0,12, i 


e 对 于 二 项 分 布 Bin(N, p), 当 重复 次 数 N 很 大 时 ， 而 不 接近 于 0 或 1， 那 么 
可 以 由 棣 莫 弗 - 拉 普 拉 斯 中 心 极限 定理 证 明 ， 该 二 项 分 布 近似 于 正 态 分 布 
X-N(Np, Np(1-P))。 棣 莫 弗 - 拉 普 拉 斯 中 心 极限 定理 是 中 心 极限 定理 的 特例 ， 实 
XpP—4E3NZ30, NpZ10m i$itiE A ACRES 

e 二 项 分 布 之 和 依然 服从 二 项 分 布 ， 即 X~Bin(N, p)füY-Bin(M, p), WA 
X«Y-Bin(N-M, p)» 


二 项 式 (p+g) 的 展开 式 将 二 项 分 布 与 二 项 式 系数 C% 紧密 关联 起 来 ， 而 二 项 式 系数 
正 是 前 面 讲 到 过 的 帕斯卡 三 角 式 中 的 那些 数值 。 


N 
(p*a) =E Chp" -Dpin( n, p) 
n-0 


SAS 程序 20-4 生成 了 N-20, p-0.5 的 二 项 页 分 布 随机 数 并 绘制 直方 图 ， 输出 结果 见 
前 面 的 图 20-7 所 示 。 


程序 20-4 Bin(20, 0.5) 二 项 分 布 的 直方 图 ( 结果 见 图 20-7 ) 
data sample; 
do t - 1 to 1000; 
pz20.5;n-20; 
X = rand('BINOMIAL', p, n); 
output; 
end; 
keep x; 
run; 
proc sgplot data-sample; 
title 'BINOMIAL Distribution (p-0.5)'; 
histogram x / binwidth-1 binstart-1 ; 
xaxis min-1 max-20 integer grid minorgrid ; 
yaxis min-1 max-20 integer grid minorgrid; 
run; 


在 SAS 语言 中 ， 除 了 使 用 服从 特定 统计 分 布 的 随机 数 发 生 器 、 创 建 数据 、 生 成 统计 
分 布 图 外 ， 我 们 还 可 以 使 用 概率 密度 函数 pdf 直接 绘制 特定 统计 分 布 图 。 程 序 20-5 利用 
PDF 函数 绘制 了 二 项 分 布 的 概率 密度 曲线 。 


程序 20-5 二 项 分 布 的 概率 密度 曲线 
data sample; 
do x-0 to 40 ; 
p-pdf('BINOM', x, 0.3,40); 
p2-pdf('BINOM', x, 0.6,30); 
p3-pdf('BINOM', x, 0.9,25); 
output; 
end; 
run; 
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proc sgplot; 
title "Binomial"; 
series x-x y-p / MARKERS legendlabel-"n-40 p-0.3" 
lineattrs-(pattern-solid color-red); 
series x-x y-p2 / MARKERS legendlabel-"n-30 p-0.6" 
lineattrs-(pattern-dash color-green); 
series x-x y-p3 / MARKERS legendlabel-"n-25 p-0.9" 
lineattrs-(pattern-dot color-blue); ; 
keylegend / location-inside position-topright across-l; 
run; 


系统 输出 的 二 项 式 概率 密度 分 布 如 图 20-8 所 示 。 
Binomial 


0.25 o 


0.20 


0.05 r ó 5 q 


0.00 |0-0-0-6-8/€-0-0-0-0:8 9.0.0.0.0 0:0 ^ — 9-9-0-6-o-8-9-0-6-6-6-0-0-0-0-0-6-0-0-0-6 


0 10 20 30 40 


图 20-8 二 项 式 分 布 的 概率 密度 曲线 
同 理 ， 我 们 也 可 以 使 用 累积 分 布 函数 cdf 绘制 对 应 分 布 的 累积 分 布 图 〈 见 程序 20-6) 。 


程序 20-6 二 项 分 布 的 累积 分 布 曲线 
data sample; 
do x-0 to 40; 
p-7cdf('BINOM', x, 0.3,40); 
p2-cdf('BINOM', x, 0.6,30); 
p3-cdf('BINOM', x, 0.9,25); 
output; 
end; 
run; 
proc sgplot; 
title "Binomial"; 
series x-x y-p / MARKERS legendlabel-"n-40 p-0.3" 
lineattrs-(pattern-solid color-red); 
series x-x y-p2 / MARKERS legendlabel-"n-30 p-0.6" 
lineattrs-(pattern-dash color-green); 
series x-x y-p3 / MARKERS legendlabel 
lineattrs-(pattern-dot color=blue); ; 


-25 p-0.9" 


keylegend / location-inside position-bottomright across-1; 
run; 
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系统 输出 如 图 20-9 所 示 。 
10 
0.8 f 
0.6 | 
g ò 
04 
02 $ 1 
P d ó 9— n=40 p-0.3 


- -9— nz30p-0.6 
o n225 p=0.9 


0.0 |0-9-9-0-9-8 6- 0-0-00 88000:0009 


0 10 20 30 40 


图 20-9 二 项 式 分 布 的 累积 分 布 曲线 


根据 二 项 式 分 布 的 一 个 性 质 , 24 n 很 大 时 , 并 且 p 接 近 于 0 或 者 1, 比如 0.95 或 者 0.05 
时 ， 二 项 分 布 Bin(n, p) 逼近 全 np 的 泊 松 分 布 P,(np)。 程 序 20-7 及 其 输出 图 20-10 可 以 
验证 这 一 性 质 。 
程序 20-7 ” 泊 松 定理 : 当 很 大 时 ， 且 接近 于 0 或 者 1， 二 项 分 布 痪 近 泊 松 分 布 
data sample; 
do t = 1 to 100000; 


n=10000; p=0.05; 
x=RAND ( 'BINOMIAL', p, n); 


m-n*p; 
x2-RAND('POISSON', m); 
output; 
end; 
keep x x2 ; 
run; 


proc sgplot data-sample; 
title 'BINOMIAL & POISSON Distribution '; 
density x / type-kernel legendlabel-'BINOMIAL (n-10000 p-0.05)" 
lineattrs-(pattern-solid color=blue); 
density x2 / type-kernel legendlabel-'POISSON (m-np-50)" 
lineattrs- (pattern-solid); 
keylegend / location-inside position-topright across-1; 
xaxis display- (nolabel); 
run; 
proc means data-sample mean var skewness; 
run; 
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BINOMIAL & POISSON Distribution 
一 BINOMIAL 


(n=10000 p-0.05) 
0.015 V— POISSON (m=np=50) 


Bl 0.010 
E 
0.005 
0.000 
400 450 500 550 600 
变量 均值 LI nr um 


x 500.0588400 474.4759826 0.0098852 -0.0142819 
x2 499.9417600 497.9018471 0.0033647 0.0161438 


tms 


AM 9 


20-10 ”二 项 分 布 与 泊 松 分 布 


另外 ， 当 nn 很 大 时 且 p 不 接近 于 0 或 1 时 ， 如 p=0.5， 二 项 分 布 副 近 正 态 分布 ， 此 
时 二 项 分 布 的 概率 密度 曲线 和 正 态 分 布 曲线 拟 合 极 好 。 其 对 应 SAS 验证 代码 如 程序 20-8 
所 示 。 


程序 20-8 棣 莫 弗 - 拉 普 拉 斯 cLT: 当 ” 很 大 且 P 不 接近 于 0 或 1 时 ， 二 项 分 布 逼近 正 态 分 布 
data sample; 
do t = 1 to 100000; 
n-10000; p-0.5; 
X-RAND('BINOMIAL', p, n); /*n-1,2,...*/ 
output; 
end; 
keep x; 
run; 
proc sgplot data-sample; 
title 'BINOMIAL Distribution (p-0.5 n-20)'; 
histogram x ; 
density x / type-normal legendlabel-'Normal' 
lineattrs-(pattern-solid color-red); 
density x / type-kernel legendlabel-'BINOMIAL (n-10000 
p-0.5)' lineattrs-(pattern-solid); 
keylegend / location-inside position-topright across-1; 
xaxis display-(nolabel); 
run; 
proc means data-sample mean var skewness kurtosis; run; 
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BINOMIAL Distribution (p=0.5 n—20) 


Normal 
——— BINOMIAL (7-10000 p-0.5) 


4900 5000 5100 
20-11 二 项 分 布 与 正 态 分 布 


20.2.3 ”几何 分 布 


对 于 大 于 等 于 零 的 整数 离散 变量 n 其 中 n=0, 1, 2, …， 服 从 如 下 概率 密度 函数 P(n)， 
则 称 服从 几何 分 布 (Geometric Distribution) ,通常 记 为 Geo(p) 或 Gp), 其 中 0<p<1 
且 g=1-p。 

P(n)=p(1-p) = pa 
D(n)- $.p(£) -1- g"* 
k: 

在 六 重 伯 努 利 试验 中 获得 试验 成 功 之 前 的 失败 次 数 所 服从 的 分 布 就 是 几何 分 布 ， 比 
如 我 们 不 停 地 扔 硬币 ， 直 到 我 们 得 到 国徽 朝 上 【试验 成 功 ) 的 结果 ， 则 前 面 的 试验 次 数 
之 和 服从 几何 分 布 。 根 据 上 面 几何 分 布 定义 公式 ， 所 有 的 概率 值 之 和 为 1。 

LP. 
DEDE Ye -p30"- 让 D 7 
图 20-12 为 p=0.5 的 几何 分 布 示例 。 
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0 5 10 1 20 
图 20-12 p=0.5 的 几何 分 布 


几何 分 布 的 总 体 均值 、 方 差 、 偏 度 和 峰 度 为 


j pan 
u-—ER 
g- P 
P 
2-p 
A Pr 
?—6p+6 
»- T 
1—p 


在 离散 型 统计 分 布 中 ， 几 何 分 布 是 唯一 的 离散 型 无 记忆 随机 分 布 ， 是 指数 分 布 的 离 
散 模拟 。 而 指数 分 布 则 是 唯一 的 连续 型 无 记忆 分 布 ， 是 几何 分 布 的 连续 模拟 。 几 何 分 布 
是 N 重 伯 努 利 试验 中 第 一 次 试验 成 功 之 前 的 失败 次 数 ， 或 者 获得 一 次 成 功 所 需要 的 试验 
次 数 〈 两 者 相差 1) 所 服从 的 统计 分 布 。 

比如 我 们 定义 在 投 山 子 试 验 中 ,一直 投 角 子 直到 得 到 点 数 为 6 WBRA MiZ 
PAZURA p=1/6 的 几何 分 布 。 如 果 在 不 断 扔 硬币 的 试验 中 ， 则 是 我 们 得 到 国 微 朝 上 时 
之 前 的 投掷 次 数 。 因 此 ， 均 匀 分 布 和 伯 努 利 分 布 都 可 以 导出 几何 分 布 。 下 面 为 SAS 绘制 
的 几何 分 布 的 概率 密度 函数 ( 见 程序 20-9 及 其 输出 结果 图 20-13) 和 累积 分 布 函数 图 ( 见 
程序 20-10 及 其 输出 结果 图 20-14) o 


程序 20-9 几何 分 布 的 概率 密度 曲线 
data sample; 
do x-0 to 10 ; 
p-pdf('GEOMETRIC', x, 0.2); 
p2-pdf('GEOMETRIC', x, 0.5); 
p3-pdf('GEOMETRIC', x, 0.8); 
output; 


proc sgplot:; 
title"GEOMETRIC"; 
series x-x y-p / MARKERS legendlabel-"p-0.2" 
lineattrs-(pattern-solid color-red); 
series x-x y-p2 / MARKERS legendlabel-"p-0.5" 
lineattrs-(pattern-dash color-green); 
series x-x y-p3 / MARKERS legendlabel-"p-0.8" 
lineattrs-(pattern-dot color-blue); ; 
keylegend / location-inside position-topright across-l; 
run; 
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图 20-13 ”几何 分 布 的 概率 密度 曲线 


程序 20-10 几何 分 布 的 累积 分 布 曲线 
data sample; 
do x-0 to 10 ; 
p=cdf ('GEOMETRIC', x, 0.2); 
p2-cdf('GEOMETRIC', x, 
p3-cdf('GEOMETRIC', x, 
output; 
end; 
run; 
proc sgplot; 
title "GEOMETRIC"; 
series x-x y-p / MARKERS legendlabel- 
lineattrs-(pattern-solid color-red) 
series x-x y-p2 / MARKERS legendlabel-"p-0.5" 
lineattrs-(pattern-dash color-green); 
series x-x y-p3 / MARKERS legendlabel-"p-0.8" 
lineattrs-(pattern-dot color-blue); ; 
keylegend / location-inside position-bottomright across-1; 
run; 
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图 20-14 几何 分 布 的 累积 分 布 曲线 
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程序 20-11 展示 了 如 何 从 均匀 分 布 的 随机 变量 中 构建 出 几何 分 布 ， 它 充分 说 明 各 种 
统计 分 布 之 间 在 某 些 条 件 下 相互 转化 的 数学 规律 〈 输 出 如 图 20-15 所 示 ) 。 


程序 20-11 ”从 均匀 分 布 构造 出 几何 分 布 : HRRS-FHASUe 之 前 的 失败 次 数 
data sample; 
n=100000; 


t-0; /* 第 一 次 成 功 之 前 失败 的 次 数 */ 
do i = 1 to n; 
x-floor (RAND('UNIFORM')*6)41 ; /* 1,2,3,4,5,6 */ 
if x-6 then do; 
x-t; 
t-0; 
output; 
end; 
t=t+1; 
end; 
keep x; 
run; 


GEO Distribution 


图 20-15 均匀 分 布 与 几何 分 布 


程序 20-12 则 展示 了 如 何 从 伯 努 利 分 布 构造 出 服从 几何 分 布 的 随机 变量 ， 输 出 如 图 
20-16 所 示 。 


程序 20-12 ”从 伯 努 利 分 布 构造 出 几何 分 布 : 抛 硬币 得 到 国徽 朝 上 之 前 的 抛 币 次 数 
data sample; 
n-100000; 


t-0; /* 第 一 次 成 功 之 前 失败 的 次 数 */ 
do i = 1 to n; 
x=RAND ( 'BERNOULLI', 0.5); /* 0, 1*/ 
if x=1 then do; 
x=t; /* 记 录 得 到 朝 上 之 前 尝试 的 次 数 */ 
t-0; 
output; 
end; 
t=t+1; 
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GEO Distribution 


303 Normal 


一 一 >GEO 
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E 20-16 伯 努 利 分 布 与 几何 分 布 


20.2.4” 负 二 项 分 布 


负 二 项 分 布 CNEGBINOMIAL Distribution) 又 称 帕 斯 卡 分 布 ， 它 给 出 多 重 伯 努 利 试 
验 中 第 x+tr 次 试验 成 功 之 前 失败 次 数 x 的 概率 分 布 , 3 i JJ X-NBin(r, p) Ek X-NB(r, p)« 
其 中 共 试 验 x+1-1 次 ，r-1 次 成 功 。 其 概率 密度 函数 为 


-i ž = 
pol- jra-» 其 中 P | 为 二 项 式 系 数 。 
对 应 的 累积 分 布 函数 为 


D(x)-Kp; r, x+1) 


其 中 等 号 右 侧 为 归 一 化 贝塔 函数 。 
负 二 项 分 布 的 总 体 均值 ， 方 差 ， 偏 度 系数 和 峰 度 系数 为 
uA 
P 
:如 


e 2 


?—-6p«6 
为 = 到 P 


rg 
在 日 常生 活 中 我 们 要 投掷 般 子 ， 每 个 面 都 是 16。 如 果 我 们 把 投 出 3 次 相同 的 点 数 
作为 单个 试验 成 功 事件 ， 则 该 试验 事件 成 功 之 前 投掷 失败 次 数 就 服从 负 二 项 分 布 。 如 
果 使 用 抛 硬币 ， 则 得 到 3 次 国徽 朝 上 之 前 的 失败 次 数 也 是 服从 负 二 项 分 布 。SAS 程序 
20-13 展示 了 伯 努 利 试验 导出 负 二 项 分 布 随机 变量 的 过 程 。 
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20-13 ， 伯 努 利 试验 导出 负 二 项 分 布 的 过 程 
data sample; 
n-100000; 


; /* 投 掷 次 数 */ 

/* 成 功 次 数 */ 

; /* 要 求 3 次 成 功 */ 

do i = 1 to n; 
x=RAND ( 'BERNOULLI', 0.5); 
t=t+1; 


if x=1 then do; 
s=s+1;/* 国 徽 朝 上 ， 成 功 次 数 加 1*/ 


end; 


if s=r then do; 
x=t-r;/* 记 录 得 到 r 次 成 功 前 尝试 的 次 数 */ 
t-0; 
5-0; 
output; 
end; 
end; 
keep x; 
run; 


负 二 项 分 布 具有 如 下 性 质 : 
(OD 当天 1 时 ， 负 二 项 分 布 退化 为 几何 分 布 : X-NBin-Geo(p). 
QD 当 > 1 时 ， 负 二 项 分 布 跟 几何 分 布 有 倍数 关系 : X ~ NBin(r. p) - Y Geo(p)« 
i=l 


(3) 任意 大 个 负 二 项 分 布 的 随机 变量 已 之 和 三 成 服从 2= 世 1 的 负 二 项 分 布 ; 
ZX, ~ NBin(Yr.p). 
SAS 程序 20-14 和 程序 20-15 绘制 负 二 项 分 布 的 概率 密度 曲线 和 累积 分 布 曲线 ( 见 
图 20-17 和 图 20-18) : 


fRH20-14 负 二 项 分 布 的 概率 密度 曲线 
data sample; 
do x-0 to 80 ; 
p-pdf('NEGBINOMIAL', x, 0.25,10); 
p2-pdf('NEGBINOMIAL', x, 0.50,10); 
p3-pdf('NEGBINOMIAL', x, 0.25,20); 
output; 
end; 
run; 
proc sgplot; 
title "NEGBINOMIAL"; 
series x-x y-p / MARKERS legendlabel-"r-10 p-0.25" 
lineattrs-(pattern-solid color-red); 
series x-x y-p2 / MARKERS legendlabel-"r-10 p-0.50" 
lineattrs-(pattern-solid color-green); 
series x-x y-p3 / MARKERS legendlabel-"r-20 p-0.25" 
lineattrs-(pattern-solid color-blue); ; 
keylegend / location-inside position-topright across-l; 
run; 
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E 20-17 负 二 项 分 布 的 概率 密度 曲线 


程序 20-15 ” 负 二 项 分 布 的 累积 分 布 曲 线 


data sample; 
do x-0 to 80 ; 
p-cdf('NEGBINOMIAL', x, 0.25,10); 
p2-cdf('NEGBINOMIAL', x, 0.50,10); 
0.25,20); 


p3-cdf('NEGBINOMIAL', x, 
output; 
end; 
run; 
proc sgplot; 
title "NEGBINOMIAL"; 
series x-x y-p / MARKERS legendlabel-"r-10 p-0.25" 
lineattr pattern-solid color-red); 
series x-x y-p2 / MARKERS legendlabel-"r-10 p-0.50" 
lineattr pattern-solid color-green); 
series x-x y-p3 / MARKERS legendlabel-"r-20 p-0.25" 


lineattrs-(pattern-solid color=blue); 
keylegend / location-inside position-bottomright across-1; 


run; 
NEGBINOMIAL 
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4 r20p-025 
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20-18 负 二 项 分 布 的 累积 分 布 曲线 
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20.2.5 JUTS 


假定 ntm 个 可 能 的 选择 中 有 个 好 的 选择 和 m 个 坏 的 选择 ， 如 果 选 择 正确 的 话 记 
为 1， 否则 记 为 0， 即 假定 第 i 个 选择 正确 的 话 记 x;=1， 否 则 x;=0。 则 成 功 选 择 的 总 数 
为 x-Yx ， 第 i 个 选择 成 功 的 概率 记 为 

m!n!N! (m*n-N)! 
PG-D^ ToD ti ND Gne 

此 类 问题 与 从 一 个 包含 个 白 球 m 个 黑 球 的 袋子 中 随机 抽取 入 个 球 ， 其 中 有 i 个 白 
球 的 概率 等 价 。 也 可 以 想象 从 总 体 为 N 的 产品 中 有 m 件 不 合格 的 产品 ， 其 不 合格 率 为 
p=m/N。 现 在 从 产品 中 不 放 回 地 随机 抽取 n 件 产 品 ， 其 中 及 个 产品 不 合格 ， 则 上 个 产 
品 不 合格 的 概率 为 


GEO 


PCA 
Cy 
则 随机 变量 了 所 服从 的 分 布 称 为 超 几 何 分 布 (Hypergeometric Distribution? ， 记 


为 X-Hyp(N, m, n)。 二 项 定理 的 内 容 就 是 断言 超 几 何 分 布 的 极限 分 布 为 二 项 分 布 ， 即 当 
Noo, m/N p, E 
k nk 
pap- — c} p* U-p)™* 
N 
超 几 何 分 布 的 数学 期 望 、 方 差 和 偏 度 计算 公式 如 下 ， 而 峰 度 为 一 个 包含 超 几 何 函 数 
的 复杂 表达 式 ， 此 处 不 再 列 出 。 


nN 
H—min 


gu mnN(m*n-N) 
^ (mn) (m+n I) 


_(m-n)(m+n-2N) mtn-l 
ET m+n-2 mnN(m+n-N) 


超 几何 分 布 有 3 个 参数 ， 通 常 记 为 Hyp(N. m, n). SAS 程序 20-16 和 程序 20-17 绘制 
出 对 应 的 概率 密度 曲线 和 累积 分 布 曲线 〈 见 图 20-19 和 图 20-20) 。 


程序 20-16 超 几何 分 布 的 概率 密度 曲线 
data sample; 
do x-0 to 3; 
N-10;R-3;nn-2; 
p-pdf('HYPER', x, 10,3 ,2 ); 
p2-pdf('HYPER', x, 50,3,3); 
p3-pdf('HYPER', x, 10,6,2); 
output; 
end; 
run; 
proc sgplot; 
title "HYPER"; 
series x-x y-p / MARKERS legendlabel-"N-10 m-3 n-2" 
lineattrs-(pattern-solid color-red); 
series x-x y-p2 / MARKERS legendlabel-"N-50 m-3 n-3" 
lineattrs-(pattern-dash color-green); 
series x-x y-p3 / MARKERS legendlabel-"N-10 m-6 n-2" 
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lineattrs-(pattern-dot color-blue); 
keylegend / location-inside position-topright across-1; 
run; 
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E 20-19 超 几 何 分 布 的 概率 密度 曲线 


程序 20-17 超 几 何 分 布 的 累积 分 布 曲线 
data sample; 
do x-0 to 3; 
pecdt('HYPER', x, 10,3 ,2 J 
p2-cdf('HYPER', x, 50,3,3); 
p3-cdf('HYPER', x, 10,6,2); 
output; 
end; 
run; 
proc sgplot; 
title "HYPER 
series x-x y-p / MARKERS legendlabel-"N-10 m-3 n-2" 
lineattrs-(pattern-solid color=red); 
series x-x y-p2 / MARKERS legendlabel- 
lineattr pattern-dash color-green) 
series x-x y-p3 / MARKERS legendlabel- 
lineattrs-(pattern-dot color=blue); 
keylegend / location-inside position-bottomright across-1; 
run; 


N-50 m-3 n-3" 
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E 20-20 超 几 何 分 布 的 累积 分 布 曲线 
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20.2.6” 泊 松 分 布 


二 项 分 布 中 我 们 已 知 ， 在 入 次 试验 中 获得 n 次 成 功 的 概率 由 如 下 二 项 分 布 的 极限 形 
式 给 出 » 
P,(n IN) WON-ny P" (7p) 
若 将 预期 成 功 的 试验 次 数 y =Np 当做 自 变量 ， 而 不 再 是 特定 概率 疡 下 的 试验 次 数 N， 


则 上 面 的 方程 变 为 E. s 
Pol) cr iy] a- 397 


则 当 试 验 次 数 足 够 大 时 ， 其 分 布 就 不 断 逼 近 如 下 分 布 形 式 : 
P,(n) =lim 忆 On IN) 


N(QN-1) -+ (N-n+1) T 


E ni I" 
=lim 一 (N-n+1) M a- Hah 
eds T ee] 

n! 
We” 
nl 

上 面 的 表达 式 中 ， 将 yy 和 n 记 为 4 和 x， 则 有 
Paj- A 


这 就 是 著名 的 泊 松 分 布 〈Poisson Distribution) 的 数学 表达 形式 ， 记 为 Poh). YER 
该 分 布 中 试验 次 数 已 经 完全 从 概率 密度 函数 中 消失 ， 这 样 对 于 所 有 的 预期 成 功 的 试验 
次 数 》 就 具有 相同 的 函数 形式 。 前 面 我 们 已 经 知道 当 二 项 式 分 布 Bin(n, p) 在 重复 次 数 
很 大 ,pp 接近 于 0 或 者 1 时 二 项 分 布 逼近 泊 松 分 布 ， 而 书 不 接近 于 0 或 1 时 二 项 分 布吉 
近 于 正 态 分 布 。 

泊 松 分 布 更 常见 的 表达 形式 是 用 发 生 率 2 表示 的 ， 即 单位 时 间 内 事件 发 生 的 次 数 y 
比 上 时 间 间 隔 x， 此 时 2= 一 一 ， 即 ?=-?x， 则 泊 松 分 布 的 概率 密度 函数 就 演变 为 如 下 形式 


P n- CXS am 
泊 松 分 布 的 均值 、 方 差 、 偏 度 和 峰 度 为 
u-y 
P=} 
-如 = 


| 
a 3-983 37Y 


对 于 上 面 利用 2 表示 的 形式 中 ，x 通常 表示 为 时 间 区 间 1， 则 4= 一 一 就 是 1 时 段 内 
发 生 的 次 数 ， 记 为 MO， 表示 ! 时 段 内 事件 发 生 的 次 数 ， 则 泊 松 分 布 可 表示 为 


PNW ar ET 
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SAS 程序 20-18 和 程序 20-19 绘制 泊 松 分 布 的 概率 密度 函数 曲线 和 累积 分 布 函数 曲 
线 ( 见 图 20-21 和 图 20-22) 。 


3820-18 泊 松 分 布 的 概率 密度 曲线 
data sample; 
do x=0 to 20; 
p-pdf('POISSON', x, 1); 
p2-pdf('POISSON', x, 4); 
p3-pdf('POISSON', x, 10); 
output; 
end; 
run; 
proc sgplot; 
title "POISSON"; 
series x-x y-p / MARKERS legendlabel-"A-1" 
lineattrs-(pattern-solid color-red); 
series x-x y-p2 / MARKERS legendlabel-"A-4" 
lineattrs-(pattern-dash color-green 
series x-x y-p3 / MARKERS legendlabel-"A-10" 
lineattrs-(pattern-dot color=blue); ; 
keylegend / location-inside position-topright across-1; 
run; 
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E 20-21 泊 松 分 布 的 概率 密度 曲线 


程序 20-19 ” 泊 松 分 布 的 累积 分 布 曲线 
data sample; 
do x=0 to 20 ; 
p-cdf('POISSON', x, 1); 
p2-cdf('POISSON', x, 4); 
p3-cdf('POISSON', x, 10); 
output; 
end; 
run; 
proc sgplot; 
title "POISSON"; 
series x-x y-p / MARKERS legendlabel-"A-1" 
lineattrs-(pattern-solid color-red); 
series x-x y-p2 / MARKERS legendlabel-") -4" 
lineattrs-(pattern-dash color-green); 
series x-x y-p3 / MARKERS legendlabel-"A-10" 
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lineattrs-(pattern-dot color-blue); ; 
keylegend / location-inside position-bottomright across-l; 
run; 


POISSON 
10 2099 9 3 &LI&--9-&-9-5-*-9-8-8-e-o 


20-22 ” 泊 松 分 布 的 累积 分 布 曲线 


从 上 面 的 描述 可 知 ， 泊 松 分 布 描述 的 是 单位 时 间 内 、 独 立 事件 发 生 次 数 的 概率 分 布 
(而 指数 分 布 则 是 独立 事件 发 生 时 间 间 隔 的 概率 分 布 ， 详 见 连续 型 统计 分 布 ) ， 它 的 前 
提 是 事件 之 间 不 能 有 关联 。 

在 日 常生 活 中 ， 有 大 量 的 事件 发 生 在 单位 时 间 内 是 有 固定 次 数 规律 的 。 比 如 某 家 医 
院 平均 每 60min 就 接生 3 个 婴儿 ， 某 呼叫 中 心平 均 10min 就 呼 入 1 个 电话 等 。 这 种 有 固 
定 发 生 频率 的 事件 就 服从 泊 松 分 布 。 固 然 我 们 可 以 估计 在 某 个 时 段 内 发 生 的 次 数 ， 但 我 
们 永远 无 法 知道 发 生 的 具体 时 间 。 虽 然 我 们 无 法 精确 预测 接 下 来 的 1h 内 到 底 有 几 个 婴 
儿 出 生 , 可 能 是 0 个 , 也 可 能 是 5 个 , 但 有 了 泊 松 分 布 我 们 至 少 可 以 解决 部 分 确定 性 问题 。 

比如 已 知 某 家 医院 平均 每 60min 接生 3 个 婴儿 ， 在 接 下 来 的 2h 内 ， 一 个 婴儿 都 不 
出 生 的 概率 是 多 少 ? 已 知 信息 为 每 60min 发 生 3 次 事件 ， 若 以 60min 为 一 个 单位 ， 则 事 
件 发 生 率 4=3; 则 正常 状态 下 2h Cl20min) 的 时 段 x 相当 于 x=120/60=2。 代 入 下 面 的 公 
式 可 计算 出 其 概率 为 0.2478%。 由 于 它 小 于 小 概率 事件 阔 值 1-99.7%=0.3%， 也 就 是 说 接 
下 来 的 2h 内 一 个 婴儿 都 不 出 生 的 概率 几乎 为 0。 即 


pwop Te. =0.0025 


在 SAS 的 泊 松 分 布 的 密度 函数 中 ， 第 一 个 参数 n 为 事件 预计 发 生 的 目标 次 数 ， 第 
二 个 参数 m 则 为 给 定时 段 x 内 正常 发 生 的 次 数 ， 它 等 于 发 生 率 4 乘 以 时 段 倍 数 x， 即 
X=3X(120/60)=6。 上 面 的 例子 可 用 如 下 SAS 程序 20-20 进行 计算 : 

程序 20-20 ”特定 泊 松 事件 在 指定 时 间 段 内 不 发 生 的 概率 


data null ; 
lamda-3; /* 每 60 分 钟 内 发 生 3 次 试验 成 功 */ 


unit=60; 
x=120/unit;/* 目 标 时 段 内 发 生 的 次 数 */ 
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m-lamda * x; /+ 考察 120 分 钟 内 预期 发 生 的 次 数 m = lamda*x */ 


n-0; /*120 分 钟 内 一 个 婴儿 都 不 出 生 , 即 n=0*/ 
p-pdf('POISSON', n, m); /*PDF ('POISSON', n, m) */ 
i then put "NOTE: 此 为 小 概率 事件 (<0.3%) 不 可 能 发 生 !"; 
run; 
泊 松 分 布 还 可 以 求解 特定 时 间 内 事件 发 生 的 概率 ， 比 如 接 下 来 的 1 小 时 内 至 少 出 生 
2 个 婴儿 出 生 的 概率 。 它 等 于 概率 总 和 1.0 减 去 接 下 来 的 1 小 时 内 出 生 1 个 婴儿 的 概率 ， 
再 减 去 接 下 来 的 1 小 时 内 出 生 0 个 婴儿 的 概率 ， 结 果 约 为 80%， 即 
P(NQ0)Z2)-1-P(N(Q)-1)-PQNQ.)70) 


3x])ye3 3x ] ye 
OE OT -08009 


本 书 附录 2 列 出 了 常用 的 泊 松 分 布 累 积 概率 表 ， 可 用 于 直接 查 表 得 到 累积 概率 值 。 
也 可 用 于 如 下 SAS 程序 直接 求解 〈 见 程序 20-21) o 


程序 20-21 特定 泊 松 事件 在 指定 时 间 段 内 发 生 的 概率 
data null ; 
lamda=3; /* 每 60 分 钟 内 发 生 3 次 试验 成 功 */ 
t0-60; 


n-0;tx-60; 
x-tx/t0; 
m-lamda * x; 


pÜ-pdf('POISSON', n, m); /*1 小 时 内 生产 0 个 小 孩 的 概率 */ 


n=1;tx=60; 
x-tx/t0; 
m-lamda * x; 


plepdf('POISSON', n, m); /*1 小 时 内 生产 1 个 小 孩 的 概率 */ 


p-1l-pl-p0; /*1 小 时 内 至 少 生产 2 个 以 上 小 孩 的 概率 */ 
put p= ; 


if (p»0.9973) then put "NOTE: 此 为 大 概率 事件 (>99.7%$) 极 有 可 能 发 生 !"; 

else if (p>0.954) then put "NOTE: 此 为 大 概率 事件 (>95%$) — 很 有 可 能 发 生 !"? 

else if (p>0.683) then put "NOTE: 此 为 大 概率 事件 (>68s) ”有 可 能 发 生 !"; 

else if (p«0.003) then put "NOTE: 此 为 小 概率 事件 (<0.3%) 即 不 可 能 发 生 !"; 
run; 


20.3 连续 型 统计 分 布 


如 果 随 机 变量 取 值 是 连续 的 ， 则 对 应 统计 分 布 为 连续 型 统计 分 布 ， 连 续 型 分 布 主要 
包括 以 下 几 种 。 


20.3.1 EAS 


正 态 分 布 (Normal Distribution) 是 最 著名 的 连续 型 统计 分 布 ， 也 叫 高 斯 分 布 。 它 的 定 
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义 是 : 若 连续 型 变量 臣服 从 如 下 概率 密度 函数 所 定义 的 统计 分 布 ， 则 称 变量 瑟 服 从 均值 
为 k、 方 差 为 o 的 正 态 分 布 ， 通 常 记 为 NU o) ， 其 概率 密度 函数 为 

1 en 
vm 

其 中 x 介 于 负 无 穷 到 正 无 穷 之 间 ， 与 各 种 概率 密度 函数 一 样 ， 正 态 分 布 概率 密度 函 
数 在 负 无 穷 到 正 无 穷 上 的 积分 为 1.0， 即 

f Pea 
而 对 所 有 小 于 等 于 的 概率 进行 累积 求 积分 ， 则 得 到 累积 分 布 函数 : 


DG) | P(x)dx'= -gie EEP 
正 态 分 布 的 累积 分 布 函数 也 可 以 写 为 


PoD= 


在) 


D(x)- — 2 [ber 


其 中 误差 函数 erf 定义 为 erf (x e" dt 


ex. 


-4 -2 0 
x 


图 20-23 ”标准 正 态 分 布 的 概率 密度 曲线 〈 钟 形 曲线 ) 


正 态 分 布 的 均值 为 w， 它 决定 了 统计 分 布 的 位 置 ， 而 其 标准 差 a 则 决定 了 分 布 的 区 
间 范 围 。 正 态 分 布 因为 中 心 极限 定理 的 存在 而 非常 有 用 ， 因 为 对 于 独立 分 布 的 随机 变量 ， 
观测 样本 的 平均 值 在 观测 数量 足够 大 时 ， 其 分 布 将 近似 正 态 分 布 。 正 态 分 布 是 许多 连续 
和 离散 统计 分 布 的 极限 分 布 ， 也 就 是 说 ， 因 为 中 心 极限 定理 的 结论 ， 其 他 概率 分 布 可 以 
用 正 态 分 布 作 近 似 。 比 如 在 n 相当 大 , p 接近 于 0.5 时 二 项 分 布 Bin(m, p) 近似 正 态 分 布 
N(np, np(1-p))， 而 泊 松 分 布 Pog) 在 当 取 样 样 本 数 很 大 时 近似 正 态 分 布 NA, 2) 

正 态 分 布 最 早 是 由 法 国 数学 家 棣 莫 弗 在 逼近 二 项 分 布 的 过 程 中 发 现 的 ， 随 后 1783 
年 被 拉 普 拉 斯 用 于 研究 计量 误差 ， 并 在 1809 年 由 高 斯 用 于 分 析 天 文学 数据 。 正 态 分 布 
是 该 统计 分 布 在 统计 学 上 的 名 称 ， 在 物理 学 领域 它 被 称 为 高 斯 分 布 ， 在 社会 科学 领域 则 
被 称 为 钟 形 曲线 。 然 而 诸多 统计 分 布 ， 如 柯 西 分 布 、 学 生 分布 和 对 数 分 布 也 都 呈现 钟 
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形 曲线 形态 ， 因 此 钟 形 曲线 并 非 正 态 分 布 所 独 有 的 分 布 形态 ， 需 要 特别 注意 这 一 点 。 
1. 标准 正 态 分 布 


总 体 均值 /=0、 方 差 为 a=1 的 正 态 分 布 称 为 标准 正 态 分 布 。 此 时 概率 密度 函数 和 累 
积分 布 函 数 简化 为 


e» 
P9) 


Do [ret CE) 
实际 上 ， 任 何 一 般 正 态 分 布 都 可 以 通过 平移 缩放 变换 Z E, vetet ptu: 
量 Z 服 从 标准 正 态 分 布 M0, 1)， 标 准 正 态 分 布 概率 密度 函数 中 的 分 母 V 玩 确保 了 钟 
形 曲线 下 方 的 面积 为 1， 而 指数 系数 1/2 则 是 为 了 确保 方差 或 标准 差 为 1。 标准 正春 
分 布 曲线 是 关于 x=0 左右 对 称 的 函数 ， 其 最 大 值 为 Qoo». 且 x 等 于 正 负 
1 时 为 1 个 ve 拐点。 下面 的 SAS 程序 是 绘制 标准 正 态 分 布 曲线 的 方法 之 ( 见 
程序 20-22 及 其 输出 图 20-24) 。 


程序 20-22 绘制 标准 正 态 分 布 曲线 
data mydata; 
do x--4 to 4 by 0.01; 
y-pdf("NORMAL", x); 
output; 
end; 
run; 
proc sgplot data-mydata; 
tiple mom. 


series x-x y-y; 

yaxis max-1 ; 

refline 0 /axis-x lineattrs- (pattern-2) d 

refline 0.3989 / lineattrs-(pattern-2) label-"0.3989"; 
run; 


图 20-24 ”标准 正 态 分 布 


同 理 ， 如 果 Z 是 一 个 标准 正 态 分 布 ， 则 Xoru 必定 服从 期 望 为 Xx， 标准 差 为 o 的 
RES Ny, o^). 一 般 地 ， 正 态 分 布 图 波峰 位 置 所 对 应 的 横 坐 标 是 总 体 均值 4， 


EET] SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


标准 差 o 越 大 ， 钟 形 曲线 越 矮 ， 越 往 两 侧 延伸 ， 表 示 分 散在 期 望 n 两 侧 的 数据 越 多 ， 数 
据 越 离散 。 

服从 正 态 分 布 的 数据 有 3c 准则 ， 即 68-95-99.7 法 则 ( 见 图 20-25) : 该 准则 指出 
如 果 变 量 分 布 服从 一 般 正 态 分 布 Nu, c)， 则 变量 观测 值 有 68% 的 概率 落 在 总 体 均值 u 
两 侧 lc 的 区 间 内 ，95% 的 概率 落 在 总 体 均值 u 两 侧 2c 的 区 间 内 ; 99.7% 的 概率 落 在 总 
体 均值 4 两 侧 30 区 间 内 。 落 在 3c 之 外 的 概率 约 为 1-99.7%=0.3%， 通 常 称 之 为 小 概率 
事件 ， 而 小 概率 事件 通常 不 发 生 。 


i 99.7% 的 数据 落 在 均值 3 个 标准 差 内 Y 
95% 的 数据 落 在 均值 2 个 标准 差 内 
68% 的 数据 落 在 均值 
1 个 标准 差 内 
u-3e 12e Wo u uto Lo ut3e 


图 20-25 正 态 分 布 的 30 准则 


正 态 分 布 的 3c 准则 是 如 何 算 出 来 的 呢 ? 由 于 正 态 分 布 是 连续 型 分 布 ， 因 此 要 计算 
正 态 分 布 曲线 下 方 小 于 人 3c 和 大 于 w+3c 的 面积 ， 根 据 对 称 性 ， 我 们 只 需要 计算 一 侧 即 
可 。 为 简化 问题 ， 我 们 使 用 标准 正 态 分 布 NO, 1) 为 例子 ， 其 概率 密度 函数 简化 为 


要 计算 x=(1-30)=-3 左 侧 的 面积 ， 可 用 积分 思想 〈 见 图 20-26) 来 计算 ， 即 用 一 系 
列 的 小 矩形 面积 来 逼近 函数 曲线 下 方 的 面积 ， 其 计算 代码 见 程序 20-23 所 示 。 


7 ud 


W u-3c 
图 20-26 积分 计算 3e 准则 值 
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程序 20-23 ”积分 求解 30 准 则 值 
data null ; 
x0--3; /*3 西格玛 */ 
p=0; w=0.01; 
do x--37.6 to x0 by w; 
h-(constant("E")** (-x*x/2.0)) / sqrt( 2 * constant ("PI")); 
p=pt w * h; 
end; 
q-1-2*p; 
put p- 6.4 q- 6.4 ; 
run; 


系统 输出 p-0.0014 q=0.9973， 即 3c 个 内 的 概率 为 99.73%。 在 SAS 中 也 可 以 直接 调用 通 
用 的 概率 密度 函数 pdf 进行 计算 ， 即 将 上 面 的 h= (constant ("E")** (-x*x/2.0))/sqrt 
( 2 * constant("PI")) 一 行 改 为 h=pdf ("NORMAL", x) 即 可 。 在 SAS 中 还 有 一 种 方 
法 是 直接 调用 SAS 系统 的 CDF 累积 分 布 函数 进行 计算 〈 见 程序 20-24) ， 结 果 相 同 。 
程序 20-24 正 态 分 布 cDF 求解 30 准 则 值 
data null ; 
p-cdf("NORMAL", -3); /*3 西 格 玛 */ 
q-1-2*p; 
put q= 6.4; 
run; 


2. 正 态 分 布 的 性 质 


数学 上 现在 已 经 证 明 ， 正 态 分 布 是 二 项 分 布 参数 (CN 重 伯 努 利 分 布 成 功 的 次 
数 ) 变 大 时 的 极限 情况 。 当 二 项 分 布 的 n 足够 大 时 ， 二 项 分 布 逼 近 均 值 为 pp， 方差 为 
np(1-p) 的 正 态 分布 N(np, np(1-p))， 即 y=np, a^-npq-np(1-p). 

正 态 分 布 有 很 多 奇特 的 属性 , 实践 中 未 知 分 布 的 随机 变量 通常 可 假设 服从 正 态 分 布 ， 
尤其 是 物理 学 和 天 文学 的 计算 。 尽 管 该 假设 可 能 有 危险 ， 但 由 于 中 心 极限 定理 的 存在 ， 
我 们 通常 能 得 到 很 好 的 逼近 结果 ， 并 且 往 往 证 明 该 假设 是 一 个 很 好 的 近似 。 中 心 极 限定 
理 指出 具有 有 限 均值 和 方差 的 任何 分 布 之 任何 变量 观测 集 ， 变 量 的 均值 趋 于 正太 分布。 
日 常生 活 中 如 考试 成 绩 、 身 高 等 都 大 臻 遵从 正 态 分 布 ， 少 数 成 员 在 高 低 两 端 ， 大 多 数 成 
员 在 中 间 区 间 聚 集 。 

正 态 分 布 是 无 限 可 分 且 稳 定 的 最 大 炳 概率 分 布 。 通 常 系 统 中 如 果 被 观察 的 对 象 之 间 
相互 独立 ， 相 关 性 很 弱 ， 则 对 象 在 系统 中 的 分 布 根据 中 心 极限 定理 往往 服从 正 态 分 布 。 
虽然 有 各 种 各 样 的 统计 分 布 ， 但 正 态 分 布 似乎 才 是 统计 分 布 中 的 王者 ， 作 者 在 附录 中 给 
出 的 图 表 完整 展示 了 各 种 统计 分 布 之 间 的 相互 关系 以 及 与 正 态 分 布 的 联系 。 

假如 随机 变量 民 和 了 变量 来 自 两 个 具有 不 同 均值 和 方差 的 独立 正 态 分 布 ， 它 们 
的 和 与 差 依然 服从 正 态 分 布 。 服 从 正 态 分 布 的 与 了 的 比 则 服从 柯 西 分 布 (Cauchy 
Distribution) ， 服 从 标准 正 态 分 布 的 互 与 工 的 比率 ， 则 服从 标准 柯 西 分 布 ， 柯 西 分 布 是 
正 态 分 布 的 姊妹 分 布 。 

正 态 分 布 的 概率 密度 函数 和 累积 分 布 函数 可 用 SAS 代码 〈 见 程序 20-25 和 程 
序 20-26) 绘制 如 下 ， 其 结果 如 图 20-27 和 图 20-28 所 示 。 


SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


程序 20-25 正 态 分 布 的 概率 密度 曲线 
data sample; 
do x=-5 to 5 by 0.01 ; 
p-pdf('NORMAL', x, 0 
p2-pdf('NORMAL', x, 0, 
p3-pdf('NORMAL', x, 0 
p4-pdf('NORMAL', x, -2 
output; 
end; 
run; 
proc sgplot; 
title "NORMAL"; 
series x-x y-p / legendlabel="p= 0.0 g-0.2" 
lineattrs-(pattern-solid color=red); 
series x-x y-p2 /  legendlabel = 0.0 cg -1.0" 
lineattrs-(pattern-dash colo reen); 
series x-x y-p3 / legendlabel="p= 0.0 g-5.0" 
lineattrs-(pattern-dot color-blue); ; 
series x-x y-p4 / legendlabel-"y--2.0 g-0.5" 
lineattrs-(pattern-dashdashdot color-black); ; 
keylegend / location-inside position-topright across-1; 
run; 
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20-27 ” 正 态 分 布 的 概率 密度 曲线 


程序 20-26 正 态 分 布 的 累积 分 布 曲线 
data sample; 
do x--5 to 5 by 0.01 ; 
p-cdf('NORMAL', x, 0,0.2 
p2-cdf('NORMAL', x, 0,1.0 
p3-cdf('NORMAL', x, 0,5.0 
p4-cdf('NORMAL', x, -2,0.5 
output; 
end; 
run; 
proc sgplot; 
title "NORMAL"; 
series x-x y-p / legendlabel-"g&- 0.0 g-0.2" 
lineattrs-(pattern-solid color-red); 
series x-x y-p2 / legendlabel-"g- 0.0 g-1.0" 
lineattrs-(pattern-dash color-green); 
series x-x y-p3 / legendlabel-"j- 0.0 g-5.0" 
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lineattrs-(pattern-dot color-blue); 
series x-x y-p4 / legendlabel-"&--2.0 g-0.5" 
lineattrs-(pattern-dashdashdot color-black); 
keylegend / location-inside position-bottomright across-l; 


run; 
NORMAL. 


20-28 ” 正 态 分 布 的 累积 分 布 曲 线 


对 于 任何 一 个 给 定 样本 数据 ， 检 查 某 个 变量 是 否 服从 正 态 分 布 可 用 Q-Q 图 进行 检 
查 。 为 了 说 明 问题 ， 我 们 首先 用 随机 数 函 数 生成 一 个 包含 10000 个 服从 正 态 分 布 的 数 
据 样本 x( 见 程序 20-27) ， 随 后 用 SAS 检查 其 正 态 性 并 进行 验证 。 


程序 20-27 ”生成 服从 正 态 分 布 的 随机 数 样本 


data sample; 


doi=1 to 10000; 
x- rand('NORMAL') ; 
output; 
end; 
keep x ; 
run; 


然后 我 们 调用 PROC SGPLOT 绘制 直方 图 和 密度 曲线 检查 变量 x 的 分 布 特征 ， 
如 果 核 密度 曲线 和 正 态 分 布 曲线 很 贴近 ， 说 明 数 据 服从 正 态 分 布 ( 见 程序 20-28 和 


图 20-29) 。 
程序 20-28 ”直方 图 和 核 密 度 估计 检查 随机 数 样本 的 分 布 特征 


title; 
proc sgplot data-sample; 
histogram x; 
density x / 
density x / 
run; 


type-kernel; 
type-normal ; 
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更 多 的 情况 是 用 Q-Q 图 进行 检验 ， 如 果 数 据 在 Q-Q 图 上 的 投 点 形成 一 条 45” 角 的 
直线 ， 说 明 该 样本 数据 服从 正 态 分 布 的 。 在 SAS 中 可 以 用 多 种 方法 绘制 Q-Q 图 ， 下 面 
以 PROC UNIVARIATE 为 例 〈 见 程序 20-29 和 输出 图 20-30) 。 

程序 20-29 Q-& 图 正 态 性 检验 

proc univariate data-sample; 


qqplot x ; 
run; 


以 下 对 象 的 Q-Q 图 : x 


R 04 


正 态 分 位 数 
图 20-30 Q-Q 图 检验 正 态 性 


假如 前 面 的 程序 20-27 用 x= rand UNIFORM’) 随机 数 函数 生成 样本 数据 集 ， 此 时 
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数据 服从 的 是 均匀 分 布 。 再 用 前 面 的 PROC SGPLOT 和 Q-Q 图 检验 其 分 布 特征 ， 将 会 
得 到 如 图 20-31 所 示 的 分 布 : 其 核 密 度 曲线 是 一 个 矩形 。 而 Q-Q 图 则 表现 为 一 个 S 函数 
的 形状 ， 这 些 特 征 与 正 态 分 布 的 图 形 具有 显著 区 别 。 
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20-31 均匀 分 布 的 核 密 度 曲 线 和 Q-Q 图 


20.8.0 ”对 数 正 态 分 布 


如 果 连 续 变 量 的 对 数 InC9 服从 正 态 分 布 ， 则 连续 变量 对 服从 对 数 正 态 分 布 (Log- 
Normal), ibid x-LnNG.o) 。 其 概率 密度 函数 和 累积 分 布 函数 与 正 态 分 布 相 同 ， 但 
变量 为 In(x) 而 非 x。 对 数 正 态 分 布 的 均值 、 方 差 、 偏 度 系数 和 峰 度 系数 为 

m 

gi eS (es -]) 

5 =e 1 Que?) 

p= eS 2e33 +3e23 -6 

HP MA S 为 变量 对 数 的 均值 和 方差 。 生 活 中 服从 对 数 正 态 分 布 变量 的 例子 包括 
消毒 剂 中 细菌 的 存活 时 间 ， 照 相 技术 感光 乳剂 中 的 银 粒子 大 小 、 人 的 体重 和 血压 ， 以 及 
书籍 中 一 个 句子 中 的 单词 个 数 等 。 对 数 正 态 分 布 和 正 态 分 布 之 间 存 在 一 个 可 逆 的 变量 转 
换 关 系 In(x) M eo FEF 20-30 验证 了 对 数 正 态 分 布 和 正 态 分 布 之 间 的 关系 ， 其 输出 如 图 
20-32 所 示 。 

程序 20-30 ”对 数 正 态 分 布 与 正 态 分 布 之 间 的 转换 

data sample; 


do i - 1 to 100000; 
x-RAND ( ' LOGNORMAL ' ) ; 


theta=0; lamda=0.5; 
x2-RAND('LOGNORMAL',theta, lamda); 


x3-log(x); 
x4-exp (rand('NORMAL')); 


output; 
end; 
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keep x x2 x3 x4 ; 
run; 
proc sgplot data-sample; 
title 'LOGNORMAL Distribution '; 
density x / type-kernel legendlabel-'LOGNORMAL (0-0.0 入 =1.0) " 
lineattrs-(pattern-solid color=blue); 
density x2 / type-kernel legendlabel-'LOGNORMAL (0=0.0 A-0.5)" 
lineattrs-(pattern-dash color=blue); 
density x3 / type-kernel legendlabel-'NORMAL' 
lineattrs- (pattern-dot); 
density x4 / type-kernel legendlabel-'LOGNORMAL"' 
lineattrs- (pattern-dashdashdot); 
keylegend / location-inside position-topright across-1; 
xaxis display-(nolabel); 
run; 
proc means data-sample mean var skewness kurtosis; run; 


LOGNORMAL Distribution 
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图 20-32 ”对 数 正 态 分 布 概率 密度 曲线 与 期 户 


从 上 面 的 表 中 可 以 看 出 ，x3 服从 标准 正 态 分布 M0. D)， 而 x4 服从 对 数 正 态 分 布 。 
为 了 进一步 验证 这 个 , 我们 运行 程序 20-31 查 看 结果 , 可 以 看 到 服从 对 数 正 态 分 布 的 变量 ， 
其 对 数值 服从 正 态 分 布 〈 见 图 20-33) 。 


程序 20-31 ”对 数 正 态 分 布 与 正 态 分 布 
proc sgplot data-sample; 
title 'LOGNORMAL Distribution '; 
density x3 / type-normal legendlabel-'NORMAL ' 
lineattrs-(pattern-solid color-blue); 
density x3 / type-kernel legendlabel-'Log(x): x ~ LOGNORMAL' 
lineattrs- (pattern-solid); 


keylegend / location-inside position-topright across-1; 
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xaxis display= (nolabel); 


run; 
jd. LOGNORMAL Distribution 
g NORMAL 
Log (x) x-LOGNORMAL 
0.3 
dt 
gi 02 
0.1 
0.0. 
-4 E 0 2 4 


图 20-33 ”对 数 正 态 分 布 与 正 态 分 布 


同 理 ， 我 们 也 可 以 用 程序 20-32 进行 验证 : 服从 正 态 分 布 的 变量 ， 其 expa) 变换 服 
从 对 数 正 态 分 布 〈 见 图 20-34) 。 


程序 20-32 正 态 分 布 指数 变换 后 服从 对 数 正 态 分 布 
proc sgplot data-sample; 
title 'LOGNORMAL Distribution '; 
density x / type-kernel legendlabel-'LOGNORMAL ' 
lineattrs-(pattern-solid color=blue); 
density x4 / type-kernel legendlabel-'exp(x): x ~ NORMAL' 
lineattrs- (pattern-solid); 
keylegend / location-inside position-topright across-1; 
xaxis display- (nolabel); 
run; 


LOGNORMAL Distribution 


——LOGNORMAL 
一 exp (x) :x- NORMAL 


25 50 75 100 
E 20-34 正 态 分 布 与 对 数 正 态 分 布 
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20.3.3 ”指数 分 布 


对 于 给 定 泊 松 分 布 , 若 其 事件 的 发 生 率 为 4， 则 其 后 事件 连续 发 生 之 间 的 等 待 时 间 ， 
遵循 如 下 概率 密度 函数 描述 的 统计 分 布 ， 称 为 指数 分 布 (Exponential Distribution) (I4 


20-35) 。 
P(x)-D'(x)-4e^* 
D(x)-P(X&x)-1-P(X 7x)-1-e?* 
PG) DG) 
o * o T 
(a) (b) 


20-35 ”指数 分 布 的 概率 密度 曲线 与 累积 分 布 曲线 


非 负 实 数 的 指数 分 布 是 连续 型 统计 分 布 中 唯一 的 无 记忆 (Memoryless〉 随机 分 布 ， 
而 非 负 整数 的 几何 分 布 则 是 离散 型 统计 分 布 唯一 的 无 记忆 分 布 。 在 统计 学 上 “无 记忆 ” 
是 指 概率 分 布 的 一 种 属性 ， 是 指 与 系统 状态 无 关 ， 事 件 发 生 概率 不 受 历史 过 程 的 影响 。 
即 特定 事件 发 生 之 前 的 等 待 时 间 不 取决 于 已 经 过 去 了 多 少时 间 。 指 数 分 布 的 均值 、 方 差 、 
偏 度 和 峰 度 为 


也 可 记 为 Exp(B)， 其 中 B=1/4， 就 记 为 如 下 形式 ， 此 时 指数 分 布 的 均值 u, 
X op 
Poe 
D(X)=1-e™ 
与 离散 泊 松 分 布 不 同 ， 指 数 分 布 是 泊 松 事件 的 时 间 间 隔 的 概率 ， 从 概率 密度 曲线 
P(x) 可 以 看 出 ， 泊 松 事件 发 生 的 概率 随 着 时 间 间 隔 的 增长 呈 指 数 式 衰减 。 日 常生 活 中 比 
如 某 家 医院 婴儿 出 生 的 时 间 间 隔 、 呼 叫 中 心 呼 入 电话 之 间 的 时 间 间 隔 等 都 服从 指数 分 
布 。SAS 程序 20-33 和 程序 20-34 可 绘制 指数 分 布 的 概率 密度 曲线 和 累积 分 布 曲 线 〈 见 
图 20-36 和 图 20-37) 。 
程序 20-33 ”指数 分 布 的 概率 密度 曲线 
data sample; 
do x=0 to 5 by 0.01; 
p-pdf("Exponential", x, 0.5); 


p2-pdf("Exponential", x, 1); 
p3-pdf("Exponential", x, 2.5); 
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proc sgplot; 

title "Exponential"; 

series x-x y-p /  legendlabel-"B-0.5" 
lineattrs-(pattern-solid color=red) ; 

series x-x y-p2 / legendlabel="B=1 " 
lineattrs-(pattern-solid color-green); 

series x-x y-p3 / legendlabel-"B-2.5" 
lineattrs-(pattern-solid color=blue); ; 


keylegend / location-inside position-topright across-l; 
yaxis max-2; 
run; 


Exponential 


05 


00 
0 1 2 3 4 5 


图 20-36 ”指数 分 布 的 概率 密度 曲线 


程序 20-34 ”指数 分 布 的 累积 分 布 曲 线 
data sample; 
do x-0 to 5 by 0.01 ; 
p=cdf ("Exponential", x, 0.5); 
p2-cdf("Exponential", x, 1); 
p3-cdf("Exponential", x, 2.5); 
output; 
end; 
run; 
proc sgplot; 
title "Exponential"; 
series x-x y-p / legendlabel-"B-0.5" 
lineattrs-(pattern-solid color-red); 
series x-x y-p2 / legendlabel-"B-1 " 
lineattrs-(pattern-dash color-green); 
series x-x y-p3 / legendlabel-"f-2.5" 
lineattrs-(pattern-dot color=blue); 


keylegend / location-inside position-bottomright across-l; 
run; 
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Exponential 


o 1 2 3 


20-37 ”指数 分 布 的 累积 分 布 曲线 


指数 分 布 可 从 泊 松 分 布 推导 得 出 。 假 设 下 一 个 事件 发 生 需 要 时 间 间 隔 为 上 则 等 同 
于 在 1 之 内 没有 任何 事件 发 生 ， 其 概率 记 为 
ADEF y 
Pi-2-P(NQ)-0)- 5 E 
则 反 过 来 ， 事 件 在 时 间 上 内 发 生 的 概率 就 是 1 减 去 上 面 的 值 ， 
P(X € t)-1-P(X > f)-1-e" 
假设 某 医院 平均 每 60min 出 生 3 个 婴儿 ， 则 可 以 计算 接 下 来 的 15min (等 于 


二 x60min ， 因 此 二 1/4-0.25) 内 有 婴儿 出 生 的 概率 约 为 53%。 其 计算 方法 为 
P(X € 0.25)=1-e3x025 = 0.5276 


而 接 下 来 的 15min 到 30min 内 有 婴儿 出 生 的 概率 约 为 25%. 


P(0.25 < X < 0.5)-P(X < 0.5)-P(X < 0.25) 
-(1-e3*95)-(1-e3X025 4975 915 ~ 0.2492 


该 计算 过 程 也 可 使 用 SAS UT 20-35 求解 如 下 


程序 20-35 ”计算 泊 松 事件 在 接 下 来 的 特定 时 段 内 发 生 的 概率 
data null ; 

lamda=3; /* 每 60 分 钟 内 发 生 3 次 试验 成 功 */ 

t0-60; 


m-lamda * x; 

pi5-pdf('POISSON', n, 

q15-1- pl5; /*15 nm T— 
put ql5= ; 


p15 x-pdf('Exponential', m ); /*Possion (n,m) 用 Exponential (m) 替代 */ 
q15 x-l- p15 x; 
put q15 x- ; 


tx-30; 
x-tx/t0; 
m-lamda * x; 
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p30-pdf('Exponential', m 
q30-1- p30;/*30 pe p——— 
put q30- ; 


p 15 30-q30-q15;/*15 - 30 分 钟 内 有 婴儿 出 生 的 概率 */ 
put p 15 30-; 
run; 


系统 输出 : 


q15-0.5276334473 

qi5 x-0.5276334473 
q30-0.7768698399 

p 15 30-0.2492363926 


20.84 卡 方 分 布 


如 果 独 立 随机 变量 互 服从 均值 为 0， 方差 为 1 的 标准 正 态 分 布 ， 则 -个 变量 区 的 平 
方 和 耻 所 服从 的 统计 分 布 ， 称 为 自由 度 为 + 的 卡 方 分 布 (Chi-square Distribution)， 通 常 
记 为 xo. . 
X XX 

i=l 

卡 方 分 布 是 假设 检验 开山 鼻祖 统计 学 家 卡尔 皮尔 还 的 发 明 。 自 由 度 为 + 的 卡 方 分 布 ， 
其 概率 密度 函数 和 累积 分 布 函 数 为 
en 


P(x)- Td as 


Dg- d- La PL) 
rd-» 


其 中 x 属于 0 到 正 无 穷 ， r(2r)s mast. LEE: nIY ems 


Ae R2 4 RR 5 4 i EAR FHAN y 0) 等 价 于 a=r/2，pB=1/2 的 伽 马 分 布 
Gamma(a, f). 
卡 方 分 布 总 体 均值 、 方 法 、 偏 度 系数 和 峰 度 系数 为 
2 
n-2N2/r 


12 
r 


Ne 
个 独立 服从 不 同 自由 度 的 卡 方 分 布 的 变量 办， 它们 的 和 六 对 仍然 服从 自由 度 为 
所 有 自由 度 之 和 的 卡 方 分 布 ， 即 独立 卡 方 分 布 具有 可 加 性 : 
Pige z(-) 
在 统计 学 中 对 一 个 总 体 的 方差 或 标准 差 进行 检验 时 ， 会 使 用 特定 卡 方 统计 量 进行 卡 
方 检验 ， 其 原理 就 是 该 特定 统计 量 的 分 布 服 从 卡 方 分 布 。 本 书 附 录 5 列 出 了 x 分 布 的 临 
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界 值 表 ， 可 用 于 卡 方 检验 。 
在 SAS 里 绘制 自由 度 r=1, 2, 3, 4, 5 的 卡 方 分 布 的 概率 密度 曲线 和 累积 分 布 曲线 如 
程序 20-36 和 程序 20-37 所 示 ， 输 出 结果 如 图 20-38 和 图 20-39 所 示 。 


程序 20-36 卡 方 分 布 的 概率 密度 曲线 
data sample; 
do x-0 to 8 by 0.01 ; 
p-pdf("CHISQUARE", x, 1); 
p2-pdf("CHISQUARE", x, E 
p3=pdf ("CHISQUARE", x, 3); 
p4-pdf("CHISQUARE", x, 4); 
p5-pdf("CHISQUARE", x, 5); 
output; 
end; 
run; 
proc sgplot; 
title "CHISQUARE"; 
series x-x y-p / legendlabel- 
series x-x y-p2 /  legendlabel 
series x-x y-p3 /  legendlabel 
series x-x y-p4 /  legendlabel- 
color-red); ; 
series x-x y-p5 /  legendlabel-"v-5" lineattrs-(pattern-dashdashdot 
color-green); ; 


" lineattrs-(pattern-solid color=red); 

" lineattrs-(pattern-dash color-green); 
" lineattrs-(pattern-dot color-blue); ; 
" lineattrs- (pattern-dashdashdot 


keylegend / location-inside position-topright across-1; 
yaxis max-1.0; 
run; 


CHISQUARE 
wi 
ve2 
ves 
v=4 
08 ves 


06 


04 


00 
0 2 4 6 8 


图 20-38 卡 方 分 布 的 概率 密度 曲线 


程序 20-37 ” 卡 方 分 布 的 累积 分 布 曲线 
data sample; 
do x-0 to 8 by 0.01 ; 
p-cdf("CHISQUARE", x, 1); 
p2-cdf("CHISQUARE", x, 2); 
p3-cdf("CHISQUARE", x, 3); 
p4-cdf("CHISQUARE", x, 4); 
p5-cdf("CHISQUARE", x, 5); 


$202 


output; 
end; 
run; 
proc sgplot; 
title "CHISQUARE"; 
series x-x y-p / legendlabel-"v-1" 
lineattrs-(pattern-solid color-red); 
series x-x y-p2 / legendlabel-"v-2" 
lineattrs- (pattern-dash color-green); 
series x-x y-p3 / legendlabel-"v-3" 
lineattrs-(pattern-dot color=blue); ; 
series x-x y-p4 / legendlabel-"v-4" 
lineattrs- (pattern-dashdashdot color=red); ; 
series x-x y-p5 / legendlabel-"v-5" 
lineattrs- (pattern-dashdashdot color-green); ; 


keylegend / location-inside position-bottomright across-1; 
yaxis max-1.0; 


run; 


CHISQUARE 


0 2 4 6 8 


图 20-39 ” 卡 方 分 布 的 累积 分 布 曲线 


20.85 ”学 生 t 分 布 


统计 分 布 EE 一 


1 统计 量 是 1908 年 统计 学 家 威廉 。 哥 赛 特 发 表 在 《生物 统计 》 期 刊 的 论文 《均值 的 


或 然 误差 》 中 首先 提出 的 。 该 论文 开创 了 小 样本 统计 理论 的 先河 并 葛 定 了 抽样 分 布 的 理 
论 基 础 ， 被 誉 为 统计 推断 理论 发 展 史 上 的 里 程 碑 。 在 统计 学 上 要 从 样本 推断 总 体 ， 样 本 
必须 是 随机 抽样 所 得 的 随机 样本 。 由 于 他 曾 师 从 统计 学 家 卡尔 。 皮 尔 逊 ， 因 此 威廉 。 哥 
赛 特 一 直 用 笔名 “FER” 发 表 论文 ， 学 生 上 分 布 (Students t Distribution) 就 是 1 统计 
量 所 服从 的 分 布 形 式 《〈 见 图 20-40) 。 


对 于 个 服从 正 态 分 布 V4 四 的 独立 观测 互 ， 样 本 统计 量 上 的 定义 如 下 : 


pr, 
BEES 
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其 中 , 4 为 总 体 均值 ; z 为 样本 均值 ; s 为 样本 标准 差 。 则 随机 变量 + 服从 自由 度 为 n-1 
的 学 生 六 分布， 记 为 i(n-1)。 一 般 地 ,统计 量 1 可 用 来 对 总 体 参 数 的 单个 假设 进行 检验 ， 
它 等 于 (估计 值 -假设 值 ) /标准 误 。 具体 到 上 面 公式 中 样本 均值 x 就 是 对 总 体 均 值 的 
估计 值 ， 而 上 就 是 总 体 均值 的 假设 值 ， 分 母 s/ V7 为 标准 误差 。 

随机 变量 t 是 在 不 知道 总 体 方差 = 的 情况 下 ， 几 乎 是 对 总 体 均 值 的 最 佳 估计 。 也 就 
是 说 随机 抽样 所 得 的 小 样本 的 平均 值 服 从 学 生 六 分 布 。 学 生 太 分 布 只 有 一 个 自由 度 参数 ， 
其 概率 密度 函数 为 

rie * »| 


| BY" 
Jar(zr i12) 
其 中 xr=n-1 为 样本 自由 度 ， 统 计量 1 介 于 负 无 穷 到 正 无 穷 之 间 。T(z) 为 伽 马 函 数 
gji 
r(3-f, "2 当 z HERS, TO)! 。 


FE t DARKE 7726. MERER A 


f(D= 


Wa 


r-4 
FE 大 分布 与 标准 正 态 分 布 的 均值 都 是 0 且 分 布 曲线 都 是 关于 0 左右 对 称 ， 曲 线 下 方 
的 面积 为 1.0。 但 标准 正 态 分 布 曲线 是 与 自由 度 无 关 的 唯一 分 布 曲线 ， 而 学 生 分 布 对 于 
每 一 个 自由 度 都 有 一 条 特有 的 分 布 曲线 ， 并 不 断 向 标准 正 态 分 布 曲线 逼近 。 学 生 上 分 布 的 
概率 密度 曲线 和 累积 分 布 曲线 如 图 20-40 所 示 ， 更 多 分 布 曲线 参考 本 节 后 面 的 样 例 代 码 。 


P) D(x) 


x x 


20-40 FE t- 4y tt EC ERE i RE HH AUR REA A i HA 


若 随机 变量 并 和 了 互相 独立 ， 且 随机 变量 开 服 从 均值 为 0， 方差 为 的 标准 正 
Ati X-NQ, o^), ifj Y"/o^ 服从 自由 度 为 n 的 卡 方 分 布 ooD)， 则 如 下 随机 变量 : 


ds 


服从 自由 度 为 n 的 学 生 分 布 。 该 性 质 将 标准 正 态 分 布 ， 卡 方 分 布 和 学 生 + 分 布 3 种 
分 布 关联 起 来 。 学 生 上 分 布 与 正 态 分 布 关系 密切 ， 且 随 着 样本 容量 ”的 增加 ， 学 生 大 分 
布 逼近 于 正 态 分 布 。t 统计 量 经 常用 于 总 体 方差 o^ 未 知 时 ， 利 用 小 样本 对 总 体 均值 进行 
估计 。 该 统计 量 在 一 个 总 体 均 值 以 及 两 个 总 体 均值 之 差 的 参数 检验 中 也 经 常 使 用 到 。 
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e 学 生 z- 分 布 
除了 学 生 二 分 布 ， 还 有 一 个 与 之 关系 密切 的 分 布 叫 学 生 z- 分 布 ， 其 定义 为 
a 
S 
其 中 x 为 样本 均值 ， 而 4 为 总 体 均值 。 则 学 生 z- 分 布 的 概率 密度 函数 和 累积 分 布 函 
数 为 


r(z) 
LO=—— Lez 
va ( ^7) 
2 
Bids tt (z). z<0 
1—d,(z). z>0 
其 中 
Ec 1 1. i -— 
NS! r(1») n(1o-0.1md0 «n. z ) 
Aar( 500) 
FE z- 分 布 的 总 体 均值 、 方 差 、 偏 度 和 峰 度 系数 为 
u-0 
o= 1 
n-3 
n=0 
6 
t= nb 
FE z- 分 布 和 学 生 上 分 布 之 间 可 相互 转换 ， 其 变换 公式 为 
了 三 -人 
E 
t-z«4n-1 


SAS 程序 20-38 和 程序 20-39 可 生成 自由 度 为 1，2，4 以 及 正 无 穷 的 学 生 上 -分布 图 ， 
其 概率 密度 曲线 和 累积 分 布 曲 线 如 图 20-41 和 图 20-42 所 示 。 


程序 20-38 ”学 生 夺 分 布 图 的 概率 密度 曲线 
data sample; 
do x--5 to 5 by 0.01 ; 
p-pdf('T', x, 1); 
p2-pdf('T', x, 2); 
p3-pdf('T', x, 5); 
p4-pdf('T', x, constant ("BIG")); 
output; 
end; 
run; 
proc sgplot; 
EDEIS M". 
series x-x y-p / legendlabel-"v-1" lineattrs-(pattern-solid color-red); 
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series x-x y-p2 / legendlabel-"v-2" lineattrs-(pattern-dash color-green); 

series x-x y-p3 / legendlabel-"v-5" lineattrs-(pattern-dot color=blue); ; 

series x-x y-p4 /  legendlabel-"v-e" lineattrs- (pattern-dashdashdot 
color-red); ; 


keylegend / location-inside position-topright across-1; 
yaxis max-0.4; 
run; 
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图 20-41 FE 六 分 布 的 概率 密度 曲线 


程序 20-39 学生 #t 分 布 的 概率 密度 曲线 
data sample; 
do x--5 to 5 by 0.01 ; 
p-cdf('T', x, 1); 
p2scdf('T', x, 2); 
psenacowmt, x. Bs 
p4-cdf('T', x, 32767 ); 
output; 
end; 
run; 
proc sgplot; 
titie "Ty"; 
series x-x y-p / legendlabel-" lineattrs-(pattern-solid color=red); 
series x-x y-p2 /  legendlabel-"v-2" lineattrs-(pattern-dash color-green); 
series x-x y-p3 /  legendlabel-"v: lineattrs-(pattern-dot color-blue); ; 
series x-x y-p4 /  legendlabel-" " lineattrs- (pattern-dashdashdot 
color-red); ; 


keylegend / location-inside position-bottomright across-1; 
run; 
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20-42. 学生 上 -分布 的 累积 分 布 曲线 


$202 


统计 分 布 ENHHEENN 


学 生 革 分布 在 样本 容量 n 大 于 等 于 120 时 ， 即 自由 度 d£- 119 时 ， 太 分 布 与 正 态 分 布 


已 经 非常 逼近 《〈 见 程序 20-40 和 图 20-43) 。 


程序 20-40 ”学 生 t- 分 布 在 样本 容量 较 大 时 吉 近 正 态 分 布 
data sample; 
n-200; 
do $ = 1 to nj 
df-n-1; 
x-RAND('T', df); /*df > 0 */ 
output; 
end; 
keep x; 
run; 
proc sgplot data-sample; 
title 'T Distribution (df-4 n-5) '; 
histogram x ; 


density x / type-normal legendlabel-'Normal' 
lineattrs-(pattern-solid color=red); 
density x / type-kernel legendlabel-'T (df-4 n-5)" 
lineattrs-(pattern-solid color=blue); 
keylegend / location-inside position-topright across-1; 
xaxis display- (nolabel); 
run; 


proc means data-sample mean var skewness kurtosis; run; 
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T Distribution (df=119 n=120) 


Normal 
T (df£-119 n=120) 


分 析 变 量 : x 
sa 5r ne ut 
01399563. 1,0543473 -0,0989695 | -0.0907059 


tine A pp a 
20-43 FE 分 布 与 正 态 分 布 (dt 六 119) 


学 生 太 分 布 在 ?” 值 很 大 时 接近 于 标准 正 态 分 布 ， 比 如 n-100000, d/-99999 t- 分 布 
如 图 20-44 所 示 。 


T Distribution (df-99999 5100000) 


| sa 52 sr sg 


0.0046462 1.0012524 -0.0035431 -0.0184556 


图 20-44 FE t- 2 pfi TES A f 
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检查 其 均值 和 方差 果然 为 0 和 1， 而且 偏 度 和 峰 度 也 近 于 0。 也 就 是 说 ,分 布 有 
个 重要 的 性 质 : 在 样本 容量 n 值 很 大 时 它 副 近 于 标准 正 态 分 布 NO, 1)。 


20.8.6 Ff 分 布 


FW CFisher's F Distribution) 是 以 推断 统计 创立 者 R. A. 费 吹 的 名 字 命 名 的 统计 
分 布 ， 主 要 用 于 检测 两 个 样本 是 否 具有 相同 方差 时 所 发 明 的 连续 型 统计 分 布 ， 通 常 记 为 
F(n, m). 

假定 两 个 随机 变量 ?和 XX? 相互 独立 ， 且 分 别 服从 自由 度 为 n JU m 的 卡 方 分 布 ， 
则 定义 如 下 统计 量 Fu 为 

E X, /n 

X, /m 

则 该 统计 量 也 是 一 个 随机 变量 ， 其 中 有 下 大 于 等 于 0 到 正 无 穷 。 下 分 布 的 概率 密度 
函数 和 累积 分 布 函数 为 


rci < nin) 
m+nx 2 2 


其 中 B(a, b) 2g VUE ERG Ix; a, b) 为 归 一 化 贝塔 函数 。 五 分 布 的 总 体 均值 、 方 差 、 
偏 度 系数 和 峰 度 系数 为 
2: m 
P m 
2_ 2m (m«n-2) 
| n(m — 2) (m — 4) 


A- -一 一 一 一 
m-6 n(m+n—2) 
i= 12(-16 + 20m — 8m? + n? + 44n — 32mm + 5m/^n - 220° 5mm) 
n(m — 6)(m —8)(n 4 m — 2) 

F Bil BGEoSE P A H EN 28 27 EET AERA EHE HI FRE 
单 因素 和 双 因 素 方差 分 析 中 扮演 着 极其 重要 的 角色 ， 其 原理 就 是 组 间 变 异 和 组 内 变异 的 
比 这 一 统计 量 ， 服 从 特定 自由 度 的 下 分 布 。 

在 SAS 中 生成 下 分 布 的 概率 密度 曲线 程序 如 程序 20-41 所 示 ， 输 出 结果 如 图 20-45 
所 示 。 读 者 可 以 绘制 其 累积 分 布 曲线 如 图 20-46 所 示 。 


SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


程序 20-41 F 分 布 的 概率 密度 曲线 和 累积 分 布 曲线 
data sample; 
do x-0 to 5 by 0.01 ; 

p-pdf("F", x, 1,1); 

p2-pdf("E", x, 2,1): 

p3-pdf("F", x, 5,2); 

p4-pdf("F", x, 100,1); 
x, 100,100); 


proc sgplot; 
title "F"; 
series x-x y-p / legendlabel-" d1-1 d2-1" 


lineattrs-(pattern-solid color=red); 
series x-x y-p2 / legendlabel-" d1-2 d2-1" 
lineattrs-(pattern-dash color-green); 
series x-x y-p3 / legendlabel-" d1-5 d2-2" 
lineattrs-(pattern-dot color=blue); ; 
series x-x y-p4 / legendlabel-" d1-100 d2-1" 
lineattrs-(pattern-dashdashdot color=red); ; 
series x-x y-p5 / legendlabel-" d1-100 d2-100" 
lineattrs-(pattern-dashdotdot color-green); ; 


keylegend / location-inside position-topright across-1; 
yaxis max-3; 
run; 
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图 20-45 五 分 布 的 概率 密度 曲线 
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图 20-46 分布 的 累积 分 布 曲线 
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F SAHE n 和 m 在 足够 大 时 (如 n=m=1000〉， 下 分 布 无 限 允 近 均 值 为 1， 方差 为 0 
的 正 态 分 布 〈 见 程序 20-42 和 图 20-47) 。 需 要 特别 注意 ， 它 逼近 的 分 布 不 是 均值 为 0， 
方差 为 1 标准 正 态 分 布 ， 而 是 均值 为 1 方差 为 0 的 正 态 分 布 。 


程序 20-42 F 分 布 在 7 和 7 在 足够 大 时 逼近 均值 为 1， 方 差 为 0 的 正 态 分 布 


data sample; 
do i - 1 to 100000 ; 
n-24; m-60; 


x-RAND('F', n, m) ;/*x > 0; n0; m» 0 */ 


output; 
end; 
keep x ; 
run; 
proc sgplot data-sample; 
title 'F Distribution (n-24 m-60) '; 
histogram x é 


density x / type=normal legendlabel='Normal' 
lineattrs-(pattern-solid color=red); 


density x / type=kernel legendlabel='F Distribution (n=24 m=60) 


lineattrs-(pattern-solid color=blue); 


keylegend / location-inside position-topright across-l; 


xaxis display- (nolabel); 
run; 


proc means data-sample mean var skewness kurtosis; run; 
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F Didtribution (n=24 m=60) 


— Normal 
一 FE Didtribution (n-24 m=60) 


均值 方差 偏 度 um 
1.0024329 0.0040458 0.1971648 | 0.0659182 


图 20-47 FAXE n, m 很 大 时 逼近 正 态 分 布 


20.3.7 HAH 


柯 西 分 布 (Cauchy Distribution) 也 称 洛 仑 效 分 布 ， 是 一 个 数学 期 望 不 存在 的 连续 型 分 
布 。 它 可 用 于 描述 共振 行为 ， 也 可 形象 地 用 一 个 悬挂 在 高 度 为 5 的 y 轴 上 的 锚 点 ， 以 随 
机 角度 9 投射 在 水 平 轴 上 截取 的 长 度 x 的 分 布 来 表示 〔 见 图 20-48〉。 另 外 ， 由 于 服从 正 
态 分 布 的 两 个 随机 变量 基 与 了 的 比 服从 柯 西 分 布 ， 因 此 柯 西 分 布 也 被 视 作 正 态 分 布 的 姊 


妹 分 布 。 
b 
O x 
图 20-48 柯 西 分 布 原理 
其 概率 密度 函数 和 累积 分 布 函数 为 


1 b 


P= WP HE 


D(x- 1 -— iy (522) 
2 m b 
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CAUCHY 


20-51 ” 柯 西 分 布 的 累积 分 布 曲线 


20.3.8 ”贝塔 分 布 


贝塔 分 布 (Beta Distribution) 在 贝 叶 斯 分 析 中 被 当 作 是 二 项 式 比 例 的 先 验 分 布 ， 它 
有 两 个 自由 参数 : a 和， 通常 记 为 Beta(a, 5)。 图 20-52 展示 了 o=1，p=0.25-~3.0 的 概 
率 密度 曲线 和 分 布 曲线 的 变化 。 


PO) DG) 


@ © 
图 20-52 RAAE M ERRE RA REUME MA 


贝塔 分 布 的 概率 密度 函数 和 累积 分 布 函数 为 
ü- xf "I 
B(a, p) 
D(x) 2 I(x; a, b) 
其 中 a,B>0，B(e. PB) 为 贝塔 函数 .其 中 贝塔 函数 与 伽 马 函数 关系 紧密 ， 有 


T(r) . "T" z 
B(a. B acp) 而 Kx; a, b) 为 归 一 化 贝塔 函数 。 


贝塔 分 布 的 总 体 均值 ， 方 差 、 偏 度 和 峰 度 为 


PQ)- 
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PB 

2 [eg 
"ied 

| XB- oap 

| JaBQ eas p) 
" | Sle «a'a-25)* £a 5)-2a8Q * f] 
je 


apla + B -2Y(a B 3) 
用 SAS 绘制 Beta 分 布 的 概率 密 曲 线 见 程序 20-44 ， 其 输出 如 图 20-53 所 示 。 贝 塔 分 
布 的 累积 分 布 曲 线 如 图 20-54 所 示 。 


程序 20-44 ”贝塔 分 布 的 概率 密度 曲线 
data sample; 
do x-0 to 1 by 0.01 ; 
p-pdf("BETA", x, 0.5, 0. 
p2-pdf("BETA", x, 5, 1) 
p3-pdf("BETA", x, 1, 3) 
p4-pdf("BETA", x, 2, 2) 
p5-pdf("BETA", x, 2, 5) 
output; 
end; 
run; 
proc sgplot; 
title "BETA"; 
series x-x y-p / legendlabel-" 
lineattrs-(pattern-solid color=red); 
series x-x y-p2 /  legendlabel-"a-5, B=1 " 
lineattrs-(pattern-dash color-green); 
series x-x y-p3 / legendlabel-"a-1, B=3" 
lineattrs-(pattern-dot color-blue); ; 
series x-x y-p4 / legendlabel-"a-2, B=2" 
lineattrs-(pattern-dashdashdot color=red); 
series x-x y-p5 / legendlabel-"a-2, B=5" 
lineattrs-(pattern-dashdotdot color-green); 


keylegend / location-inside position-topcenter across-1; 
yaxis max-5; 
run; 


图 20-53 ”贝塔 分 布 的 概率 密度 曲线 
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BETA 


图 20-54 贝塔 分 布 的 累积 分 布 曲 线 


当 贝 塔 分 布 在 a=f=1 时 ， 即 Beta(1, 1) 旷 变 为 连续 均匀 分 布 Unif(0, 1)。 可 用 SAS 程 
序 20-45 来 验证 ， 输 出 结果 如 图 20-55 所 示 。 


程序 20-45 žja=b=1 时 贝塔 分 布 赔 变 为 最 简单 的 均匀 分 布 
data sample; 
do x=0 to 1.5 by 0.01 ; 
p-pdf("BETA", x, l, 1); 
output; 
end; 
run; 
proc sgplot; 
title "BETA"; 
series x-x y-p /  legendlabel-"a-1, B=1" 
lineattrs-(pattern-solid color-red); 
keylegend / location-inside position-topright across-1; 


run; 


A - : —— 
0.00 0.25 0.50 0.75 1.00 1.25 1.50 


x 
图 20-55 ”均匀 分 布 与 贝塔 分 布 


第 20 章 统计 分 布 EEENEEEEENI 


20.8.9 WB 


伽 马 分 布 《Gamma Distribution) 是 从 泊 松 分 布 的 事件 之 间 的 等 待 时 间 过 程 中 自然 导 
出 的 统计 分 布 ， 它 也 是 与 贝塔 分 布 相关 的 一 般 统 计 分 布 。 伽 马 分 布 有 两 个 自由 参数 xc 和 
P HWA Gamma(a, 6)。 对 于 给 定 发 生 率 4 的 泊 松 分 布 ， 在 第 hh 次 泊 松 事件 发 生 之 前 
的 等 待 时 间 的 分 布 函数 D(x) 为 
D(x)= P(X € x) 
-1-P(X x) 
h-l (Ak)'e ^ 


ede 
En 


pon 
ko k! 
I(h,xA) 
Th 
其 中 x 大 于 等 于 0 到 正 无 穷 ， T(x) s644 ESAE Na, x) 为 不 完全 伽 马 函数 。 当 
hh 为 整数 时 ， 该 分 布 就 是 爱 尔 朗 分 布 (Erlang Distribution). 
对 件 马 分 布 的 累积 分 布 函数 D(x) 求 微分 可 得 伽 马 分 布 的 概率 密度 函数 : 
pe à 
P(x) 2 D'(x)- (Di e 


假定 ach Ca 不 一 定 要 求 是 整数 ) ， 广 1/ 为 泊 松 事件 之 间 的 时 间 ， 则 上 面 的 方程 就 演变 为 


=1 一 e 


=1 


= p 2-1 -Px 
P(x) TG) e 


MEPR 4 A Eee eV TERRE HL. 7526. RER RANER SUN 


"E 
p 
o? E 
P 
^ E 
6 
y» 7E 
图 20-56 为 a=1, 1, 2 和 8-1, 2, 3 的 概率 密度 函数 和 累积 分 布 函数 曲线 。 
PG) DG) (1,1) 
GD (1,2 
0,2 Q,3) 
Q,3) 
x X 
(a) (b) 


图 20-56” 伽 马 分 布 的 概率 密度 曲线 与 累积 分 布 曲线 
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伽 马 分 布 具有 如 下 一 些 性 质 值得 特别 关注 : 
D EHNE E XIRA Gamma(a, f) ii, NXA 服从 Gamma(a, 1) 分 布 。 


Q2) 伽 马 分 布 Gammaa. f) 本 身 服从 ANN 的 指数 分 布 。 

G) n 个 服从 伽 马 分 布 的 独立 随机 变量 忒 ， 如 果 具 有 不 同 a 值 但 有 相同 8 值 ， 则 这 
些 随机 变量 的 和 Èx, 一 定 服从 a= Èa 的 伽 马 分 布 ， 即 Gamma [a - Yo, p). 也 就 
说 相同 有 的 伽 马 分 布 具有 可 加 性 。 7 

(4) 2 AJ JA n 33 43 48 RU S BL Rn, RS. dn SEL FCIRE Ca 和 
a) 和 相同 的 8 值 ， 则 随机 变量 的 组 合 Xv Qr) 服从 贝塔 分 布 Beta(w。 a). 

(5) dr X BU E AA CS u 和 标准 差 为 “的 正 态 分 布 ， 则 了 = 全 -= 是 一 个 具有 
参数 a=1/2 的 标准 伽 马 变量 ， 即 了 服从 伽 马 分 布 Gamma (1/21) 。 

SAS 程序 20-46 用 伽 马 随机 数 发 生 器 绘制 伽 马 分 布 曲 线 如 图 20-57 所 示 。 


程序 20-46 伽 马 分 布 的 概率 密度 曲线 和 累积 分 布 曲线 
data sample; 


do N - 1 to 100000; 
X = rand("GAMMA", 1 ) 
x2 = rand("GAMMA", 2 ) 
x3 = rand("GAMMA", 3 ) 
x5 = rand("GAMMA", 5 ) 
x9 = rand("GAMMA", 9 ) 
output; 

end; 

keep x x2 x3 x5 x9; 

run; 


$macro drawline(x, label, pattern); 
density &x / type-kernel legendlabel-&label lineattrs-(pattern-&pattern); 
5mend; 


proc sgplot data-sample; 
title 'GAMMA Distribution'; 
density x / type-normal legendlabel-'Normal' lineattrs-(pattern-solid 
color-red); 
$drawline (x, 'GAMMA (a-1)',solid); 
$drawline(x2, 'GAMMA (a-2)',dash); 
$drawline(x3, 'GAMMA (a-3)',dot); 
$drawline(x5, 'GAMMA (a-5)',dashdashdot); 
$drawline(x9, 'GAMMA (a-9)',dashdotdot); 
keylegend / location-inside position-topright across-1; 
xaxis display-(nolabel); 
run; 
proc means data-sample mean var skewness kurtosis; run; 
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GAMMA Distribution 


Normal 
GAMMA (a=1) 
一 一 一 GAMMA (a=2) 

GAMMA (a=3) 
一 -一 GAMMA (a-5) 
一 一 GAMMA (a=9) 


变量 均值 方差 ar L4 


x 0.9965986 0.9979822 20140137 6.1849360 

K 1.3943398 2.8201001 

x3 30012252 29864079 1.1458362 1.9700057 

x5  5.0048914 5.0393194 0.8828795 1.1356814 

x9 89873353 9.0277687 0.6689190 0.6435308 
ARE ERR re 7 QA 


图 20-57 415548 B] CR RS JE a X 


要 特别 注意 图 20-57 PH ui - MIÉ o? = 


7 GE ENNEA 时 者 等 于 对 应 的 w 值 。 


20.3.10” 爱 尔 朗 分 布 


与 伽 马 分 布 类 似 ， 爱 尔 朗 分 布 (Erlang Distribution) 也 是 从 泊 松 分 布 导出 。 对 于 
给 定 发 生 率 4 的 泊 松 分 布 ， 在 第 个 泊 松 事件 发 生 之 前 的 等 待 时 间 ， 其 累积 分 布 函 数 
D) 28 
PU. xi) 

I(h) 

其 中 x 为 大 于 等 于 0 到 正 无 穷 ; Tx) ATEMI KRG Na, x) 为 不 完全 伽 马 函 数 。 
24 为 整数 时 ， 该 分 布 就 是 爱 尔 朗 分 布 。 对 累积 分 布 函 数 D(x) 求 微分 ， 即 得 该 分 布 概率 
密度 函数 如 下 : 


D(x) = (X € x) -1- 


AQ) aas 
(h—1)! 

爱 尔 朗 分 布 就 是 伽 马 分 布 在 ah 为 整数 时 的 统计 分 布 ， 当 a=1 时 该 统计 分 布 进一步 
演变 为 指数 分 布 。 服 从 爱 尔 朗 分 布 的 随机 变量 可 分 解 为 多 个 同 参数 的 指数 分 布 的 随机 变 


P(x)-D'(x)- 
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量 的 和 ， 这 一 性 质 使 得 爱 尔 朗 分 布 被 用 于 排队 模型 的 分 析 之 中 。 
TFHA SAS 绘制 的 爱 尔 朗 a=1 和 a—10 时 的 分 布 曲 线 〈 见 程序 20-47 和 图 20-58) : 
程序 20-47 ” 爱 尔 朗 分 布 a=1 和 a=10 时 的 分 布 曲线 


data sample; 
do N - 1 to 100000; 


x-RAND('ERLANG', 1); /*a =1,2,. x»0*/ 
x10-RAND('ERLANG', 10); /*a -1,2,. x»0*/ 
output; 
end; 
keep x x10 ; 
run; 


proc sgplot data-sample; 
title 'ERLANG Distribution'; 
histogram x / legendlabel-'x (a-1)' filltype-gradient; 
density x / type-normal legendlabel-'Normal (a-1)' lineattrs- (pattern-dot 
color-black); 
density x / type-kernel legendlabel-'ERLANG (a-1)' lineattrs- (pattern-dash 
color-blue); 


histogram x10 / legendlabel-'x (a-10)' ; 

density x10 / type-normal legendlabel-'Normal (a-10)' lineattrs-(pattern-dot 
color-black); 

density x10 / type-kernel legendlabel-'ERLANG (a-10)' lineattrs-(pattern-dash 
color-black); 

keylegend / location-inside position-topright across-1; 

xaxis display-(nolabel); 


run; 
proc means data-sample mean var skewness kurtosis; run; 


ERLANG Distribution 


B xa 
Normal (a=1) 
——— ERLANG(a=1) 

Box 


Normal (a=10) 
=== ERLANG =10) 


百分比 


E 均值 | ”方差 um um 
x 0.9992015 0.9998478 1.9864505 5.8171484 
x10  9.9939244 9.9577380 0.6258270 0.5850115 


Mein, pp f iP niet A t, T 
20-58 ” 爱 尔 朗 分 布 与 正 态 分 布 
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20.8.44 韦 布 尔 分 布 


韦 布 尔 分 布 CWeibull Distribution) 通常 记 为 Weibull(a, B)， 韦 布尔 分 布 的 概率 密度 
函数 和 累积 分 布 函数 为 


P(x)- aget n 


— 
其 中 x 为 大 于 等 于 0 到 无 穷 。 其 总 体 均值 、 方 差 、 偏 度 和 峰 度 系数 为 
u- BI Qa) 
e? = P'[ra«2&)r'*ü««)] 
z 2 天 和 3 
[ra«227)- r'ü«a*)P 
f(a) 
* [rae22- raroe)] 
其 中 T(z) 为 伽 马 函数 。 
韦 布尔 分 布 是 用 于 求 偏离 中 位 数 很 远 的 极端 或 罕见 值 的 极 值 分 布 ， 它 最 初 是 用 于 量 
化 疲劳 数据 ， 但 也 可 以 用 来 分 析 系 统 中 设计 最 薄弱 的 环节 。 韦 布尔 分 布 给 出 了 关于 物体 
寿命 的 分 布 ， 被 大 量 用 于 现实 中 如 风速 分 布 ， 灾 难保 险 损失 ， 生 存 分 析 和 精算 科学 。 有 
时 也 被 称 为 Rosin-Rammler 分 布 ， 双 参数 形式 的 韦 布尔 分 布 其 位 置 参 数 为 0。 有 些 文献 
中 也 记 为 Weibull(4, k), H} 148, k=a。 程序 20-48 绘制 了 韦 布尔 分 布 的 概率 密度 曲线 ( 见 
图 20-59) ， 其 累计 分 布 曲线 如 图 20-60 所 示 。 
程序 20-48 韦 布 尔 分 布 的 概率 密度 曲线 


data sample; 
do x=0 to 2.5 by 0.01 ; 


p-pdf("WEIBULL", x, 1, 0.5) 
p2-pdf("WEIBULL", x, 1l, 1); 
p3-pdf("WEIBULL", x, 1l, 1.5) 
p4-pdf("WEIBULL", x, 1, 5); 
output; 
end; 
run; 


proc sgplot; 
title "WEIBULL"; 
series x-x y-p / legendlabel-"A-1, k-0.5" 
lineattrs-(pattern-solid color-red); 
series x-x y-p2 / legendlabel-"A-1, k-1 " 
lineattrs-(pattern-dash color-green); 
series x-x y-p3 / legendlabel-"A-1, k-1.5" 
lineattrs-(pattern-dot color=blue); 
series x-x y-p4 / legendlabel-"A-1, k-5" 
lineattrs- (pattern-dashdashdot color-red); 
keylegend / location-inside position-topright across-1; 
yaxis max-2; 
run; 
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WEIBULL 


和 =1,k=0.5 
入 =1,k=1 
A=1,k=15 


A=1,k=5 
15 
0.5 
0.0 
图 20-59 韦 布尔 分 布 的 概率 密度 曲线 
WEIBULL 
10 
08 
06 
04 
02 入 =1,k=05 
图 20-60 韦 布尔 分 布 的 累积 分 布 曲线 
20.3.12 ”三 角 分 布 


三 角 分 布 〈Triangular Distribution) 就 是 在 0~1 区 间 以 某 个 固定 概率 h0 < h< 1) 
为 顶点 构成 的 三 角形 ( 见 图 20-61) 。 三 角 分 布 可 模拟 两 个 均匀 分 布 的 随机 变量 的 均值 
的 分 布 ， 也 可 用 于 蒙特 卡 罗 仿真 对 离散 系统 进行 建 模 。 下 面 的 SAS 程序 20-49 生成 服从 
三 角 分 布 的 随机 变量 并 绘制 了 h=0.25 和 h=0.75 时 的 三 角 分 布 曲线 ， 图 中 的 钟 形 曲线 为 
参考 的 正 态 分 布 曲线 。 
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程序 20-49 三 角 分 布 的 概率 密度 曲线 
data sample; 
do N = 1 to 100000; 
h=0.25; 
x-RAND('TRIANGLE', h) ; /*0 €« x <1; 0X h X 1 */ 
h-0.75; 
x2-RAND('TRIANGLE', h) ; /*0 X x &« 1; 0x h € 1 */ 
output; 
end; 
keep x x2 ; 
run; 
proc sgplot data-sample; 
histogram x / legendlabel-'x (a-1)'; 
density x / type-normal legendlabel 
lineattrs-(pattern-solid color=red); 
density x / type-kernel legendlabel-'TRIANGLE (h-0.25)" 
lineattrs-(pattern-dash color=blue); 
density x2 / type-kernel legendlabel-'TRIANGLE (h-0.75)"' 
lineattrs- (pattern-dot); 
keylegend / location-inside position-topright across-1; 
xaxis display-(nolabel); 
title 'TRIANGLE Distribution'; 
run; 
proc means data-sample mean var skewness kurtosis; run; 


'"Normal' 


TRIANGLE Distribution 


Normal 
— — — TRIANGLE (h-025) 

TRIANGLE (h0.75) 
25 


20 


Sas 


05 


025 0.00 025 050 


变量 | 均值 bE a — ut 


x 0.4167945 | 0.0450117 0.4171524 | -0.6035949 
x2  (0.5830118 0.0452358 -0.4185068 | -0.6096005 


图 20-61 三 角 分 布 


20.3.13 Table 分 布 
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Table 分 布 〈Table Distribution) 就 是 服从 给 定 概率 序列 的 数据 分 布 ， 它 通过 指定 多 
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个 分 段 的 抽样 概率 来 模拟 任何 分 类 数据 的 分 布 。 在 随机 数 发 生 器 中 它 可 以 按照 指定 的 概 
率 生成 对 应 比率 的 观测 。 比 如 给 定 两 个 概率 值 p,=0.8 和 p,=0.2， 生 成 包含 10 样本 的 
随机 序列 ， 其 中 数值 等 于 1 的 比例 占 比 为 0.8， 而 数值 等 于 2 的 比例 占 比 为 0.2 ( 见 
图 20-62) 。Table 分 布 随机 数 发 生 器 可 在 SAS 中 用 于 构造 任何 统计 分 布 的 数据 ， 从 而 
进行 数据 模拟 和 数据 分 析 。 程 序 20-50 可 输出 结果 如 图 20-62 所 示 。 


程序 20-50 Table 分 布 的 随机 数 生成 器 以 及 对 应 的 核 密度 估计 曲线 
data sample; 
do i = 1 to 100000; 
pl1-0.8; p2-0.2; 
x-RAND('TABLE', pl, p2 ); /*0 X pl, p2, ... S 1 */ 
pl-0.1; p2-0.3; p3-0.6; 
x2-RAND('TABLE', pl, p2, p3); /*0 < pl, p2, ... € 1 */ 
output; 
end; 
keep x x2; 
run; 
proc sgplot data-sample; 
density x / type-normal legendlabel-'Normal' 
lineattrs-(pattern-solid color=red); 
density x / type-kernel legendlabel-'TABLE (pl-0.8 p2-0.2)" 
lineattrs-(pattern-dash color-blue); 
density x2 / type-kernel legendlabel-'TABLE (pl-0.1 p2-0.3 p3-0.6)' 
lineattrs- (pattern-dot); 
keylegend / location-inside position-topright across-1; 
xaxis display-(nolabel); 
title 'TABLE Distribution'; 
run; 
proc means data-sample mean var skewness kurtosis; run; 


TABLE Distribution 
* 


Normal 
7 — — TABLE (p1=0.8 p2-0.2) 
TABLE (p1=0.1 p2=0.3 p3=0.6) 


wm 


变量 均值 方差 GE um 
X  |1.1999700 0.1599836 | 1.5002569 | 0.2507758 
X2  |2.4985200 0.4516823 -0.9912045 | -0.2309454 


ats att ma P eth 


图 20-62 Table 分 布 
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各 统计 分 布 之 间 的 关系 
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方差 分 析 


利用 样本 数据 推断 总 体 分 布 特征 的 数据 分 析 方 法 称 为 推断 性 统计 ， 它 与 利用 样本 数 
据 构 建 统 计量 的 描述 性 统计 共同 构成 单 变量 统计 分 析 方 法 的 基础 。 在 推断 性 统计 中 ， 参 
数 估 计 要 解决 的 问题 是 利用 样本 数据 如 何 估计 描述 总 体 特征 的 参数 ， 而 假设 检验 则 是 利 
用 样本 数据 来 判断 对 总 体 的 假设 是 否 成 立 。 对 于 单 变量 的 数据 统计 分 析 方 法 ， 其 内 在 结 
构 关 系 如 图 21-1 所 示 。 


rr Ju eim p^ 检验 ( 单 尾 和 双 尾 ) 。 大 检验 EARD 双 侧 检验 (区 间 外 — d 
MERER m 5 pir 方差 比 : Fia es / 答 验 ( 单 尾 和 双 尾 ) ( 单 尾 和 双 尾 ) EA 样 相左 位 析 验 (小 于 下 限 ) | 


最 大 似 然 法 " (配对 小 样本 ) 右 侧 检验 (大 于 上 限 ) | 
k 均值 " 方差 H | :检验 ( 单 尾 和 双 尾 ) 
] ehm desi: q 5 均值 (定性 数据 : 定 类 / 定 序 ) adis A orem | 
" 
à m " ; 比例 方差 
点 估计 区 向 估计 — 4 比例 x ya 
! 
i 
1 个 总 体 2 个 总 体 其 他 
P 值 检验 | 
方 y RMNO 1 
H 众 数 z 检 验 ( 双 尾 ) ! 
! 中 位 数 [73 ] 参数 检验 ] 
' 四 分 位 关 ME C kac D EE idis ei prin 
| 变异 系数 BIA, Mr, des 
! | ! 假设 检验 定性 数据 、 中 位 数 、 统 计 分 布 
| 集中 趋势 ”离散 程度 — 分 布 形状 | ne 
H 非 参数 检验 
! 
1 
NNI: si 单 样本 两 独立 样本 多 独立 样本 
| | 
H zi 
描述 性 统计 推断 性 统计 。; ”ks 检验 K-S 检 验 ET 
|o 变量 值 随机 性 检验 。。 极端 反应 检验 
| 


H 两 配对 样本 。 多 配对 样本 
统计 方法 i gue s Diete, 

H 

H 


21-1 ”描述 性 统计 — 


21.1 假设 检验 


假设 检验 的 核心 思想 是 利用 小 概率 事件 竟然 在 一 次 试验 中 发 生来 否定 对 总 体 参数 或 
分 布 的 假设 。 因 为 如 果 我 们 对 总 体 参数 或 分 布 所 作 的 假设 是 正确 的 话 ， 样 本 值 与 原 假设 
出 现 显著 差异 的 可 能 性 应 该 是 很 小 的 。 但 如 果 这 种 差异 在 一 次 随机 抽样 中 就 显现 出 来 ， 
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我 们 就 有 理由 怀疑 当初 的 假设 是 否 是 真 的 。 也 就 是 说 如 果 假 设 成 立 的 可 能 性 ， 小 于 给 定 
显著 性 水 平 a 所 要 求 的 临界 值 ， 我 们 必须 拒绝 原 假设 。 假 设 检验 包括 两 部 分 : 

(1) 假设 是 指 我 们 对 总 体 参数 或 分 布 特征 做 出 某 种 假设 ， 在 统计 学 上 称 为 零 假 设 
(Null Hypnosis) 或 原 假设 ， 记 作 Hy 而 与 零 假设 对 立 的 假设 称 为 备 择 假设 ， 记 作 He 
通常 我 们 收集 证 据 想 要 否定 的 假设 作为 零 假设 ， 它 是 一 个 包含 “等 于 ” (包括 大 于 等 
于 /小 于 等 于 ) 含义 的 命题 ， 比 如 y=3.5 或 者 1 3.5 。 而 把 与 零 假设 陈述 的 内 容 相反 的 
命题 作为 备 择 假设 ， 它 是 一 个 包含 “不 等 于 ”“ 小 于 ”或 “大 于 ”等 含义 的 命题 ， 比 
dil u Æ 3.5 RÆ u < 3.5。 

C2) 检验 是 利用 观测 到 的 样本 信息 来 判断 上 面 的 假设 是 否 成 立 ， 最 重要 的 是 对 样 
本 信息 和 原 假 设 的 差异 进行 分 析 。 基 于 观测 到 的 一 个 样本 ， 假 定 已 知 它 服 从 特定 分 布 ， 
且 已 知 某 些 总 体 参 数 的 情况 下 ， 我 们 可 以 构造 出 一 个 特定 的 检验 统计 量 。 由 于 该 统计 量 
基于 一 次 抽样 数据 计算 所 得 ， 因 此 它 也 是 一 个 随机 变量 ， 服 从 特定 分 布 。 

如 果 样 本 与 假定 参数 与 分 布 的 总 体 差 异 小 于 我 们 人 为 指定 的 水 准 ， 称 之 为 “统计 不 
显著 ”， 说 明 样本 和 总 体 之 间 的 差异 完全 是 随机 性 引起 的 ， 我 们 需要 接受 零 假 设 ， 即 样 
本 数据 服从 特定 参数 的 总 体 分 布 ， 否 则 就 说 明 样本 和 假定 总 体 之 间 的 差异 并 非 完 全 是 由 
随机 性 引起 的 ， 差 异 是 显著 的 ， 必 须 拒绝 零 假 设 。 

我 们 把 人 为 指定 允许 出 现 差 异 的 最 低 水 平 ， 称 为 显著 性 水 平 ， 记 作 a; 而 l-a 则 称 
为 置信 水 平 。 在 图 21-2 所 示 的 抽样 分 布 图 中 , 它们 在 横 坐 标 上 所 对 应 的 样本 统计 量 区 间 ， 
分 别称 之 为 拒绝 域 和 接收 域 。 由 于 显著 性 水 平 a 是 一 个 人 为 指定 的 常量 ， 只 要 统计 量 落 
在 拒绝 域 我 们 就 拒绝 原 假设 , 它 根 本 无 法 给 出 观测 数据 (样本 ) 与 原 假设 之 间 差 异 的 程度 ， 
因此 统计 学 家 R. A. Fisher 引入 “P- 值 ” 来 衡量 当 原 假设 为 真 时 ， 得 到 与 样本 一 样 的 观 
测 值 或 者 更 加 极端 值 的 概率 。 


P 值 


/2 | 临界 值 
拒绝 域 


Hy 临界 值 | o/2 
接受 域 拒绝 域 样本 统计 量 


图 21-2 假设 检验 的 原理 


P- 值 的 本 质 就 是 观测 到 的 显著 性 水 平 ， 也 是 零 假设 H 能 被 拒绝 的 最 小 a 值 。P- 值 
越 小 ， 结 果 差 异 的 显著 性 就 越 大 ， 拒 绝色 的 理由 就 越 充分 。 注 意 ， 显 著 性 水 平 a 是 理 
论 上 要 求 的 显著 性 水 平 ， 而 P- 值 是 基于 样本 计算 出 来 的 值 ， 因 此 P- 值 就 是 用 实际 样本 
拒绝 原 假设 的 那个 最 小 的 a 值 ， 在 许多 研究 领域 P- 值 < 0.05 通常 被 认为 是 可 接受 的 临 
界 水 平 ， 与 人 为 指定 的 a 值 的 临界 水 平 0.05 类 似 。 

在 假设 检验 中 有 两 种 统计 学 错误 需要 加 以 区 分 。 
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(1) 如 果 零 假设 事实 上 成 立 ， 但 统计 检验 的 结果 不 支持 该 零 假设 〈 和 否定 零 假 设 ) ， 
则 此 类 错误 称 为 T 型 错误 ， 也 称 假 阳 性 错误 ， 它 在 科学 研究 中 容易 导致 错误 的 科学 论断 
I 型 错误 的 发 生 概 率 记 为 zs， 就 是 显著 性 水 平 。 

D 若 零 假 设 事实 上 不 成 立 ， 但 统计 检验 结果 支持 零 假 设 〈 接 受 零 假设 ) ， 此 类 
错误 称 为 开 型 错误 ， 也 称 假 阴性 错误 ， 它 在 科学 研究 中 可 能 导致 错失 科学 发 现 。 开 型 错 
误 发 生 的 概率 记 为 po 

如 果 错 误 的 假设 导致 错误 的 推断 ， 即 假设 本 身 都 是 错 的 ， 就 称 为 英 型 错误 ， 贰 型 错 
误 并 非 统计 学 错误 。 

比如 一 个 人 用 验 孕 棒 检 验 是 否 怀 孕 ， 如 果 此 人 没有 怀孕 但 验 孕 棒 指 示 她 怀孕 了 ， 则 
这 是 工 型 错误 ， 如 果 此 人 确实 怀孕 了 但 验 孕 棒 指 示 并 未 怀孕 ， 则 这 是 开 型 错误 。 开 型 错 
误 与 取样 范围 、 试 验 设 定 标准 的 高 低 和 效果 有 关 。 假 设 此 人 怀孕 了 ， 然 后 你 推断 此 人 没 
来 上 班 ， 但 实际 上 此 人 正在 上 班 ， 则 此 类 错误 称 为 III 型 错误 。 统 计 决 策 中 不 可 能 同时 
减少 I 型 错误 和 开 型 错误 ， 也 就 是 说 xc 和 不 可 能 同时 减少 而 是 此 消 彼 长 ， 它 们 在 统 
计 检 验 过 程 中 的 关系 如 表 21-1 所 列 。 


表 21-1 统计 检验 过 程 
nas 


正确 判断 (1 一 a) 型 错误 (D 
dk 
— EH GA) 


21.2 方差 分 析 


方差 分 析 是 一 种 特殊 的 假设 检验 ， 它 用 来 判断 多 组 数据 的 总 体 均值 之 间 的 差异 是 否 
显著 。 对 两 组 数据 比较 一 般 使 用 学 生 上 检验 即 可 ， 但 上 检验 在 多 重 比较 时 引发 I 型 错误 
的 机 会 增高 ， 所 以 在 比较 多 组 样本 数据 所 代表 的 总 体 之 平均 值 是 否 有 差异 时 ， 往 往 采 用 
方差 分 析 方 法 (Analysis of Variance , ANOVA) 。 方 差分 析 是 主要 探讨 连续 型 变量 ， 在 
类 别 型 自 变量 不 同 水 平 〈 也 称 为 因素 的 具体 表现 ) 下 的 观测 值 ， 来 检验 各 类 别 所 属 总 体 
的 均值 是 否 相等 的 统计 模型 ， 广 泛 用 于 实验 数据 分 析 中 。 


21.2.1 学 生 二 检验 


1. 统计 量 计算 

对 某 个 衡量 差异 的 变量 计算 + 统计 量 有 多 种 方法 ， 最 简单 的 是 利用 PROC MEANS 
直接 计算 1 统计 量 及 其 P- 值 ( Pr > 川 )。 程 序 21-1 的 例子 中 假定 变量 4 是 关于 某 变量 的 
两 个 样本 的 差异 值 ， 我 们 定义 原 假 设 Hy 为 这 两 个 总 体 的 均值 相等 ， 即 Am=o。 而 图 21-3 
为 该 SAS 程序 对 此 差异 值 4 计算 出 来 的 1 统计 量 为 0，P- 值 等 于 1.00， 它 说 明 我 们 需要 
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接纳 原 假设 H Wx y 这 两 个 变量 描述 的 两 个 总 体 均 值 是 相等 的 其实 x* 和 y 两 个 样 
本 只 是 顺序 不 同 ) 。 但 如 果 计 算出 来 的 P- 值 小 于 0.05 则 需要 拒绝 零 假设 。 


程序 21-1 两 个 样本 差异 值 的 简单 - 检验 
data mydata; 

input x y 86; 

d-x-y; 

datalines; 


RUNE 
ENWAU 


run; 
proc means data=mydata t probt; 
var d; 
run; 
Lir: d] 
tf Proh 
0.00 1.0000 


21-3 ”学 生 1 统 计量 


程序 21-2 代码 也 能 输出 类 似 的 结果 , 不 过 包含 更 多 的 信息 , 包括 分 布 图 和 Q 一 Q 图 等 。 


程序 21-2 ”两 个 样本 差异 值 的 /- 检 验 
Proc ttest data=mydata; 

var d; 
run; 


2. 检验 类 型 


检验 方法 主要 用 于 样本 容量 小 于 30 且 总 体 标准 差 o 未 知 时 判断 一 个 样本 的 均值 
和 总 体 均值 的 差别 (或 者 两 个 样本 均值 的 差别 是 否 具有 统计 学 意义 ， 即 差别 显著 。 包 
括 单个 总 体 的 二 检验 ， 两 个 总 体 的 二 检验 (独立 样本 二 检验 和 配对 样本 二 检验 )。 

有 多 种 方法 可 以 实现 单个 总 体 的 大 检验 ， 程 序 21-3 的 代码 是 基于 原始 数据 通过 指 
XE mu0 参数 进行 的 上 检验， 指定 不 同 的 mu0 值 会 得 到 不 同 的 检验 结果 。 而 图 21-4 所 示 
的 结果 中 ， 由 于 P- 值 0.9754 不 小 于 0.05， 我 们 不 能 拒绝 sashelp.class 身高 的 样本 均值 和 
所 指定 的 总 体 均值 62.3 相等 的 原 假设 ， 也 就 是 说 我 们 应 该 接受 样本 均值 跟 总 体 均值 62.3 
之 间 在 统计 学 上 没有 显著 差异 的 假设 。 

程序 21-3 ”样本 跟 指定 总 体 mu0 的 上 -检验 (UNIVARIATE) 

proc univariate data-sashelp.class normal mu0-62.3; 


var height; 
run; 


位 置 检验 - Mu0-623 
检验 wita pä 
Student t t 0031322 Pr» hl — 09754 


OO 


21-4. 样本 与 指定 总 体 均值 的 学 生 检验 


SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


程序 21-4 的 SAS 代码 也 能 输出 等 价 的 结果 ， 但 此 时 是 用 Ho 选项 进行 指定 的 。 


程序 21-4 样本 跟 指定 总 体 HO 的 二 检验 (TTEST) 
proc ttest data-sashelp.class H0-62.3; 
var height; 

run; 


对 于 来 自 不 同 总 体 的 两 个 样本 的 二 检验 ，TTEST 过 程 步 只 需要 有 个 用 CLASS 语句 
指定 的 分 类 变量 标记 分 组 (比如 用 Sex 变量 标记 两 个 不 同性 别 组 ) ， 即 可 用 程序 21-5 代 
码 进行 双 样本 检验 : 


程序 21-5 ” 双 样 本 三 检验 

proc ttest data-sashelp.class alpha-0.05; 
class sex; 
var height; 

run; 


而 对 于 配对 样本 的 上 检验， 比如 对 医学 研究 中 受 试 验 对 象 处 理 前 后 的 两 组 数据 进行 
大 检验 ， 可 以 有 两 种 方法 进行 。 比 如 我 们 将 SASHELPCLASS 中 的 两 个 变量 Height 和 
Weight 分 别 对 应 两 个 配对 样本 ， 现 在 进行 配对 样本 t- 检验 ， 可 用 程序 21-6 代码 进行 : 


程序 21-6 配对 样本 1- 检 验 

Proc ttest data=sashelp.class; 
paired weight * height; 

run; 


我 们 也 可 以 先 计 算 两 个 变量 的 差异 值 4， 然 后 对 衡量 差异 的 变量 4 做 单 变量 分 析 ， 
检查 输出 的 + 统 计量 及 其 P- 值 来 做 配对 样本 二 检验 。 


程序 21-7 计算 差异 值 然后 利用 单 变量 分 析 
data mydata; 
set sashelp.class; 
d=weight-height; 
run; 
proc univariate data-mydata normal ; 
var d; 
run; 


在 SAS "P MEANS, UNIVARIATE 和 TTEST 3 个 过 程 步 都 可 以 进行 + 检验 ， 读 者 可 
以 查看 帮助 文档 了 解 更 多 细节 。 本 书 附录 4 列 出 了 t+ 分 布 临 界 值 表 可 供 检验 之 用 。 


21.22. 单 因 子 方差 分 析 


方差 分 析 的 主要 工具 是 由 R.A Fisher 发 明 的 下 统计 量 及 下 分 布 ， 它 利用 误差 平方 和 
与 自由 度 相 除 来 计算 均 方差 以 衡量 样本 的 数据 变异 ， 然 后 用 组 间 均 方差 和 组 内 均 方差 的 
比值 构造 出 F 统计 量 。 通 过 比较 下 统计 量 与 对 应 显著 性 水 平 下 的 下 临界 值 来 判断 各 因素 
水 平 下 的 表现 是 否 存在 显著 差异 。 

方差 分 析 根据 因子 数量 的 多 少 可 以 分 为 单 因子 方差 分 析 、 双 因子 方差 分 析 以 及 多 因 
子 方差 分 析 。 根 据 因子 的 特性 不 同 ， 也 可 以 分 为 固定 效应 的 方差 分 析 、 随 机 效应 的 方差 
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分 析 以 及 混合 效应 的 方差 分 析 ; 随机 效应 的 方差 分 析 所 考虑 的 因子 是 来 自 于 所 有 可 能 总 
体 的 一 组 样本 ， 但 该 因子 方差 分 析 所 推论 的 并 非 是 所 选 定 的 因子 ， 而 是 因子 背后 的 总 体 。 
进行 方差 分 析 必 须 符 合 3 个 前 提 条 件 : 各 组 样本 必须 是 独立 的 ; 各 组 样本 所 代表 的 

总 体 必 须 服 从 正 态 分 布 或 者 近似 正 态 分 布 ， 各 组 的 方差 还 必须 相等 ， 满 足 方差 齐 性 。 在 
具体 操作 上 ， 方 差分 析 的 基本 步骤 为 : 

(1) 假定 有 天 组 数据 ， 每 组 数据 的 样本 大 小 为 n( 其 中 i1, 2, … 月 ， 各 组 数据 的 样 
本 量 可 以 相等 ， 也 可 能 因 实际 条 件 限 制 并 不 相等 。 

(20 计算 总 的 离 差 平方 和 (Sum of Squares for Total, SST) : 它 等 于 所 有 观测 值 x; 
跟 全 部 数据 均值 之 差 的 平方 和 ， 反 映 的 是 全 部 数据 的 离散 情况 ， 也 就 是 全 部 样本 数据 
对 总 体 均 值 的 偏离 程度 。SST 也 有 文献 写作 TSS -Total Sum of Squares。 其 计算 公式 为 


SST = pe -xy 


3 ga 

G) 计算 误差 项 的 平方 和 (Sum of Squares for Error, SSE) : 它 等 于 各 组 样本 的 
观测 值 xj 跟 本 组 样本 均值 x; 之 差 的 平方 和 。 它 反映 的 是 各 组 数据 内 部 观测 值 与 该 组 数 
据 均 值 之 间 的 离散 程度 ， 也 称 为 组 内 离 差 平方 和 (Within Sum of Squares, WSS) 。 组 
内 离 差 平方 和 反映 从 来 自 相同 总 体 的 不 同样 本 在 抽样 时 引入 的 随机 误差 大 小 。 其 计算 公 
式 为 : 

k n 
SSE- Y Y, - x» 


P y 
(4) 计算 水 平 项 平方 和 (Sum of Squares for Factor A, SSA) : 它 等 于 各 组 样本 均 
(Ez (51, 2, … 月 跟 总 体 均值 x 的 离 差 平 方 和 。 它 反映 来 自 同一 总 体 的 各 组 样本 的 均值 
之 间 的 差异 程度 ， 也 称 为 组 间 平 方 和 (Between Sum of Squares, BSS) 。 它 的 构成 既 包 
括 因 抽样 造成 的 随机 误差 ， 也 包括 由 于 因子 本 身 所 导致 的 系统 误差 。 其 计算 公式 为 
SS4 5S -Xy - Sous -FP 


id jal i=l 


EH 3 种 离 差 平方 和 之 间 存在 如 下 关系 : 
总 的 高 差 平方 和 SST= 误差 项 离 差 平方 和 SSE+ 水 平 项 离 差 平方 和 SSA 


(5) SEGUE ELE Hy: 假设 各 组 数据 来 自 同一 总 体 ， 则 它们 的 均值 相同 ， 即 
mo=…=- 仆 成 立 ， 表 示 没 有 系统 误差 。 如 果 系 统 误 差 趋 于 0， 则 由 随机 误差 和 系统 误差 
构成 的 组 间 离 差 平 方 和 SSA 应 该 会 跟 反映 随机 误差 大 小 的 SSE 相近 。 

(6) 由 于 3 个 离 差 平方 和 自由 度 不 同 ， 我 们 需要 消除 自由 度 的 影响 。 其 中 SST 的 自 
由 度 为 所 有 组 样本 数 总 和 1， 组 间 平 方 和 SSA 的 自由 度 为 因子 水 平 六 1， 而 组 内 平方 和 
SSE 的 自由 度 为 n-k，3 个 自由 度 之 间 也 存在 关系 ddfe+4f。。 因 此 对 于 前 面 计算 出 来 
的 3 种 离 差 平方 和 ， 分 别 对 各 自 的 自由 度 进行 分 扒 ， 可 以 消除 观测 值 的 多 少 对 高 差 平方 
和 的 影响 ， 从 而 建立 反映 组 间 变 异 和 组 内 变异 的 为 均 方差 MSA 和 MSE， 也 有 文献 写作 
BMSS 和 WMSS， 即 Between Means Sum of Squares 和 Within Means Sum of Squares。 
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WMS 和 MsE - 8E 
df... df... 
我 们 定义 统计 量 下 为 组 间 变 异 和 组 内 变异 的 比值 : 
_ MSA _ SSA! df, 
MSE SSE! df, 
则 当 零 假设 也 AAN, AiE FORAAATTLB BEN kl, DAA BREA n-k fj 
F(k-1,n-k) 分 布 。 表 21-2 列 出 了 单 因 素 方差 分 析 计 算 的 基本 结构 。 


表 21-2 单 因素 方差 分 析 的 计算 
| sm | sr — [| mi | | 
CD 统计 决策 : 将 计算 出 来 的 统计 量 下 与 给 定 的 显著 性 水 平 a 下 查 表 (参见 本 书 

附录 6: 五 分 布 临 界 值 表 )〉 所 得 的 临界 值 F 进行 比较 ， 从 而 做 出 接受 或 拒绝 零 假设 Ho 
的 统计 决策 。 通 常情 况 下 : 

DUR F< Foos CEXOSEISZ P- B > 0.05), 则 接纳 零 假 设 , 即 各 组 样本 之 间 的 差异 不 显著 。 

@ 如 果 Foos < F < Fus (或 对 应 0.01 < P- 值 0.05) ， 则 拒绝 零 假设 ， 认 为 各 组 样 
本 之 间 的 差异 是 显著 的 ， 标 记 为 *。 

Qu F > Foa (或 对 应 P- {< 0.01) ， 则 拒绝 零 假设 ， 认 为 各 组 样本 之 间 的 差 
异 极其 显著 ， 标 记 为 **。 

五 分 布 接纳 零 假 设 和 拒绝 零 假设 的 域 如 图 21-5 所 示 。 


F 


0.64 


€ F, (cl, n-k) 


21-5 五 分 布 的 接纳 域 和 拒绝 域 
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e 实例 分 析 1: 比如 某 公 司 研发 了 4 种 新 型 饮料 ， 假 定 除 颜色 外 其 他 可 能 影响 销售 
量 的 因素 ( 如 营养 含量 、 味 道 、 价 格 ) 全 部 相同 ， 现 在 从 菜 地 区 经 营 规模 相似 
的 5 家 超市 收集 了 上 个 月 的 销售 量 如 表 21-3 所 列 ， 现 在 要 求 分 析 饮料 的 颜色 对 销 
售 量 是 否 产 生 显著 影响 ? 


表 21-3 4 色 饮 料 在 5 家 超市 的 销售 数据 


虽然 我 们 可 以 用 SAS 的 PROC 过 程 步 直接 进行 方差 分 析 ， 但 为 了 演示 计算 过 程 ， 
我 们 可 在 DATA 步 中 自己 编程 计算 下 统计 量 并 进行 检验 ， 完 整流 程 如 程序 21-8 所 示 。 


程序 21-8 自己 编程 计算 己 统 计量 并 进行 检验 
data mydata; 
input cl-c4; 
datalines; 
26.5 31.2 27.9 30.8 
28.7 28.3 25.1 29.6 
25.1 30.8 28.5 32.4 
29.1 27.9 24.2 31.7 
27.2 29.6 26.5 32.8 


data null ; 
array d[5,4] temporary ; 


/* 1) 读 入 数据 到 数组 中 进行 打印 和 后 续 运算 */ 
array r[4] cl-c4; 
do j-1 to n; 
set mydata point-j nobs-n; 
do i-1 to dim(d,2); 
d[j,il-r[il; 
put d[j,i] 60; 
end; 
put; 
end; 
put "Stepl: 读 入 数据 完毕 "; 


/*2) 计 算 总 体 均值 m all 和 组 内 均值 m[i]*/ 


m all=0; 

array m[4] _temporary ; 

do i-1 to dim(d,2); 
m[i]=0; 


do j-1 to dim(d,1); 
m[i]-m[i]t d[j,il; 
end; 
m all-m all*m[i]; 
m[i]-m[i]/dim(d,1); 
end; 
m allem all/ (dim(d,1) * dim(d,2)); 
put "Step2: 计算 总 体 和 各 组 均值 完毕 "; 
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/*3) 计 算 SST, SSE 以 及 SSA */ 
sst-0; 


do i-1 to dim(d,2); 
do j=1 to dim(d,1); 
sst-sst* (d[j,i]-m all)**2; 
sse-sse*t (d[j,i]-m[i])**2; 
end; 

end; 

ssa-sst - sse; 


put "Step3: 计算 总 体 、 组 内 、 组 间 力 差 平方 和 . " SST- SSE- SSA-; 


/*4) 计算 自由 度 ， 均 方差 以 及 F 统计 量 */ 
k-dim(d,2); n-dim(d,1)*dim(d,2); 
dfl-k-1; df2-n-k; 

msa- (ssa/df1); 

mse-(sse/ df2); 

F-(ssa/dfl) / (sse/ df2); 

put "Step4: 计算 F 统计 量 . " F=; 


/*5) 基于 F 统计 量 进行 统计 决策 */ 
F005=FINV( 1- 0.05, dfl, df2); /* 查 F 临界 值 表 */ 
F001=FINV( 1- 0.01, dfl, df2); 
put "Step5: 给 定 显著 性 水 平 0.05 和 0.01 的 临界 F É: " F005= F001-; 
put; 
if F«F005 then put "接纳 零 假 设 :组 间 差 异 不 显著 "; 
if F005<=F AND F«F001 then put "拒绝 零 假设 :组 间 差 异 显 著 +"; 
if F001<=F then put "拒绝 零 假 设 :组 间 差 异 极其 显著 cr; 
stop; 
run; 


系统 输出 为 


Stepl: 读 入 数据 完毕 

Step2: 计算 总 体 和 各 组 均值 完毕 

Step3: 计算 总 体 、 组 内 、 组 间 力 差 平方 和 .sst=115.9295 s5e-39.084 ssa=76.8455 
Step4: 计算 F 统计 量 . F-10.486200662 

Step5: 给 定 显著 性 水 平 0.05 和 0.01 的 临界 F 值 : F005=3.2388715175 F001-5.2922140455 
拒绝 零 假 设 : 组 间 差 异 极其 显著 ** 


SAS 程序 21-8 展示 了 单 因素 方差 分 析 的 内 部 计算 细节 ， 熟 悉 计 算 逻 辑 后 用 户 可 用 
SAS 封装 好 的 一 系列 的 PROC 步 来 完成 数据 分 析 过 程 。 用 SAS PROC 步 来 进行 方差 分 析 ， 
首先 需要 构建 SAS PROC 支持 的 数据 组 织 形态 ， 步 骤 如 下 : 

首先 对 前 面 的 数据 进行 变换 ， PE A EEE TRT ARE ( 见 程序 21-9) ， 其 
中 factor 列 为 因子 水 平 ， 取 值 为 A, As As A x 列 为 观测 值 ( 见 图 21-6) 。 


程序 21-9 将 多 列 数据 转化 为 分 组 数据 
data mydataG; 
set mydata; 
array c[4] ci-c4; 
do j-1 to 4; 
factor-"A" || trim(left(j)); 
x-c[j]; 
output; 
end; 
keep factor x; 
run; 


第 21 章 方差 分 析 ME 


Obs ci c2 c3 c4 Obs | factor| x 
1/265 312 279 308 ia (255 
2/287 283 251 296 212 (n2 
3251 308 285 324 aja 9 
(4291279 242 317 alas |308 
| 8/272 295 265 328 INFE vH 
MM x23 


21-6 重组 数据 供 分 析 


如 前 所 述 ， 方 差分 析 需 要 符合 3 个 前 提 条 件 : 数据 相互 独立 、 正 态 分 布 或 近似 正 态 
分 布 、 总 体 方 差 相 等 ， 因 此 我 们 需要 检查 数据 分 布 的 正 态 性 和 方差 齐 性 。 首 先 检查 数据 
分 布 的 正 态 性 〈 见 程序 21-10) 。 


程序 21-10 ”检测 数据 分 布 是 否 符合 正 态 分 布 
Proc univariate data=mydataG normal; 
title " 单 因素 方差 分 析 "; 
var x; 
class factor; 
run; 


SAS 自动 为 各 组 数据 计算 了 各 种 有 关 统 计量 和 描述 性 分 析 结 果 ， 在 每 组 数据 的 “ 正 态 
性 检验 ”下 , 我 们 可 以 看 到 Spapio- 静 大 检验 的 W 统计 量 和 p- 值 ， 其 中 如 果 p- 值 (Pr <W) 
大 于 0.05 则 表明 数据 符合 正 态 分 布 。 而 4 组 数据 的 P- 值 分 别 为 :0.7503, 0.4825, 0.7128, 
0.7532， 说 明 各 组 数据 都 符合 正 态 分 布 〈 见 图 21-7) 。 


21-7 正 态 性 检验 


使 用 SAS 进行 单 因 子 方差 分 析 ， 可 以 直接 用 如 下 过 程 步 计 算 〈 见 程序 21-11) ， 它 
与 前 面 自己 用 DATA 步 计 算得 到 的 结果 相同 〈 见 图 21-8) 。 
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程序 21-11 ANOVA 单 因子 方差 分 析 
proc anova data-mydataG ; 
class factor; 


model X - Factor ; 
run; 
源 自由 度 平方 和 均 方 F 值 Pr>F 
模型 3 76.8455000 25.6151667 10.49 0.0005 
误差 16 39.0840000  2.4427500 
校正 合计 19 | 115.9295000 
RZ 变异 系数 均 方 很 误差 x 均值 
0.662864 5.446698 1.562930 28.69500 
源 自由 度 Anova 平方 和 均 方 F 值 Pr>F 
factor 3 76.84550000 25.61516667 10.49 0.0005 


图 21-8 单 因 子 方差 分 析 


下 面 我 们 也 可 使 用 GLM 过 程 步 来 执行 方差 分 析 ， 检 验 4 个 颜色 组 的 销售 量 是 否 存 
在 差异 〈 见 程序 21-12 和 图 21-9) o 
程序 21-12 GIM 单 因 子 方差 分 析 
proc glm data-mydataG; 
class factor; 
model x-factor ; 
means factor /hovtest snk; 
quit; 


在 “方差 分 析 ” 下 的 “总 体 ANOVA” 中 , 我 们 可 以 看 到 完整 的 单 因素 方差 分 析 的 结构 ， 
其 中 模型 值 10.49 就 是 我 们 前 面 自己 计算 的 五 统计 量 。 然 后 我 们 检查 Pr > F 的 值 为 
0.0005， 远 小 于 p- 值 0.01， 因 此 我 们 必须 拒绝 零 假设 ， 认 为 4 个 颜色 组 的 销售 量 存 在 显 
著 差 异 ， 它 们 来 自 不 同 的 总 体 。 


GLM 过 程 

ASE: x 
源 自由 度 平方 和 SA F 值 Pr> F 
模型 3, 76.8455000 25.6151667 10.49| 0.0005 
误差 16| 39.0840000| 2.4427500 


校正 合计 19 | 115.9295000 


图 21-9 GLM 过 程 步 输出 


其 中 means 语句 的 hovtest 选项 用 来 做 Levene 方差 齐 性 检验 , 判定 标准 是 P- fü 
(Pr — FdÉO . ， 如 果 它 大 于 0.05 则 说 明 满 足 方差 齐 性 要 求 。 图 21-10 表示 该 数据 通过 
Levene 方差 齐 性 检验 Pr > F (873 0.6387, 大 于 0.05 说 明 数 据 符合 方差 分 析 的 前 提 条 件 。 
另外 ，GLM 过 程 步 还 会 画 出 x 变量 在 每 个 因子 上 的 分 布 情况 ， 盒 形 图 可 揭示 各 组 内 部 
数据 的 分 布 特征 〈 见 图 21-10) 。 
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图 21-10 Levene 方差 齐 性 检验 


虽然 我 们 知道 各 组 的 均值 不 同 ， 但 要 知道 细节 必须 进行 多 重 比较 。 我 们 可 以 使 用 
LSD 方法 或 者 LSR 方法 之 一 进行 检验 。 其 中 Student-Newman-Keuls (SNK) 方法 可 对 x 
变量 进行 Newman-Keuls 检验 ， 它 属于 最 小 显著 极 差 法 (Least Significant Ranges,LSR) 
的 改进 类 型 。 该 方法 在 完全 零 假 设 〈 不 是 部 分 零 假 设 ) 下 可 控制 D 型 试验 错误 率 

CExperiment-Wise Error Rate, EER) 。 

从 下 面 的 方差 分 析 多 重 比较 结果 〈 见 图 21-11). 看 出 ， 因 子 A, A 来 自 同 一 个 SNK 
分 组 4， 而 A, A 则 来 自 另 一 个 SNK 分 组 B。 这 就 是 说 具有 相同 SNK 分 组 字母 的 各 
组 数据 之 间 是 不 存在 显著 性 差异 ， 而 具有 不 同 字母 的 数据 则 存在 显著 性 差异 。 它 说 明 
A, As 可 能 来 自 一 个 总 体 ， 而 As, As 来 自 另 一 个 总 体 ， 它 们 的 总 体 均 值 的 差异 表明 ， 
As, A4( 分别 表示 粉色 和 绿色 ) 饮料 的 销售 显然 比 ALAS (无 色 、 桶 黄色 ) 要 好 。 


[E 


图 21-11 多 重 比较 分 析 结果 
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e 实例 分 析 2: 当 各 组 数据 的 观测 数 不 一 样 时 ， 我 们 也 可 以 使 用 同样 的 方法 进行 方 
差分 析 。 下 面 的 数据 为 消费 者 协会 收集 到 的 关于 零售 业 、 旅 游 业 、 民 航 业 和 家 
电 制造 业 的 消费 者 投诉 次 数 。 由 于 行业 差异 ， 收 集 到 的 数据 量 是 不 同 的 。 与 
前 面 的 方法 一 样 ， 我 们 先 变换 数据 然后 调用 SAS PROC 进 行 方差 分 析 ( 见 程 
Æ 21-13 和 输出 图 21-12 ) 。 

程序 21-13 ”消费 者 对 零售 、 旅 游 、 民 航 和 家 电 制 造 等 4 行业 的 投诉 次 数 分 析 

data mydata; 
input cl-c4; 


datalines; 
57 62 51 70 


proc print data-mydata; run; 


€1 c2 c3 c4 


49 49 68 


ELS ES sd 
a 


47 


图 21-12” 非 平衡 数据 


利用 程序 21-12 的 GLM 代码 对 该 数据 进行 方差 分 析 ， 结 果 输 出 如 图 21-13 所 示 。 


GLM 过 程 

DZE: x 
源 Eme 平方 和 SA F 值 Pr> F 
模型 3, 845.217391 281.739130 1479 | <.0001 
误差 19| 362.000000. 19.052632 


RESH 22 | 1207.217391 


图 21-13 ” 非 平 衡 数据 的 方差 分 析 


计算 结果 的 五 值 为 14.79， 查 E, 临界 值 表 Fooi(3, 19)=5.0。 由 于 五 值 大 于 Fon 我 们 
拒绝 零 假设 ， 也 就 是 说 4 个 行业 的 服务 质量 具有 显著 差异 。 另 外 , 我 们 也 可 以 直接 从 图 
21-13 中 检查 P- (E (Pr> 互 值 ) <.0001， 该 值 小 于 临界 P- 值 0.01， 我 们 拒绝 零 假 设 ，4 
组 样本 并 非 来 自 同 一 总 体 ， 它 们 具有 显著 差异 。 

e 基于 -检验 的 LSD 方法 

为 了 更 进一步 了 解 各 组 差异 的 细节 ， 除 了 我 们 前 面 提 到 的 SNK 多 重 比较 方法 ， 也 
可 以 用 经 典 的 Fisher 最 小 显著 差异 法 (Least Significant Difference, LSD) ， 该 方法 可 以 


判断 到 底 是 哪些 均值 之 间 存 在 差异 。 
方法 ， 对 总 体 方差 估计 用 MSE 来 代 
X (C omparison-Wise Error Rate, 
3X EER. 
121-14 单 因子 方差 分 析 - LSD 方 法 
Proc glm data=mydataG; 


class factor; 
model x-factor ; 
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LSD 是 通过 对 两 个 总 体 均值 是 否 相等 的 t- 检验 
替 修 正 所 得 。LSD 方法 可 以 控制 I 型 比较 错误 


CERO , 比较 灵敏 。 但 SNK 方法 可 以 控制 试验 错误 


means factor /hovtest lsd; /* 使 用 LSD 方法 */ 


run; 
quit; 


程序 21-14 运行 后 的 输出 结果 如 图 21-14 所 示 。 


Noto: This tec: controls the Type I 


单 因 素 方差 分 析 
Gim e 
t Tests (LSD) for x 
comparisonwise eer rate, not the experimentwise error rate. 


oos 


Compansons significam at the 0.05 level are. 
indicated by ^ 


factor 
ue 
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从 图 21-14 中 可 以 看 到 ，As 和 A, 


EE 95w Confidence Limits 
mo» aas mum 一 
DON NETTES 
so» Gm am| = 
xo» assa ada 一 
so» om um 
c» ose nim| e 
no» — 39 — act 
so» was oum 
10» — 436 — 636 
I NNET ONE ES 
NE NET ES 
io sss acm 


变量 x 的 + 检验 (LSD) 


A, A, 差异 非常 显著 ， 同 时 A, 和 A, 之 间 差异 也 


极其 显著 。LSD 方法 的 结果 与 对 应 SNK 的 方法 结果 ( 见 图 21-15) 大 同 小 异 ; SNK 方 
法 是 排 好 序 且 更 加 简洁 ， 比 如 A, 和 A 差 值 从 图 21-15 中 一 眼 就 可 以 看 出 66-51-15, 但 


LSD 提供 了 更 加 详细 的 信息 。 


具有 相同 字母 的 均值 稍 有 不 同 


SNK 
A 


o» om 


图 21-15 


分 组 IA N factor 
66000 5 A4 


56000 6 A2 
51000 7 | A1 


50000 5 A3 


变量 x 的 SNK 检验 
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单 因 子 方差 分 析 是 方差 分 析 的 基础 ， 因 此 我 们 了 解 单 因子 方差 分 析 的 基本 原理 和 工 
作 方 法 对 掌握 方差 分 析 具 有 重要 意义 。 双 因子 方差 分 析 继 承 了 它 的 基本 概念 ， 其 中 无 交 
互 作用 的 双 因 子 方差 分 析 与 单 因子 方法 分 析 基 本 相同 。 


21.2.3” 双 因子 方差 分 析 


有 交互 作用 的 双 因 子 方差 分 析 除 了 主 效应 外 还 有 双 因子 联合 效应 ， 因 此 其 总 变异 量 
可 以 分 解 为 4 部 分 : 两 个 因子 各 自 的 主 效应 ， 两 个 因子 交互 作用 效应 ， 以 及 各 因子 的 组 
内 变异 量 。 相 应 地 下 检验 也 就 变 为 3 个 检验 : 双 因子 各 自 的 了 检验 ， 以 及 交互 作用 的 下 
检验 。 就 是 因子 A 组 间 变 异 、 因 子 B 组 间 变 异 以 及 因子 AB 交互 作用 变异 3 个 均 方 差 与 
组 内 变异 的 比值 。 当 交互 作用 不 显著 时 ， 可 以 将 两 个 因子 各 自 的 了 检验 结果 当 作 双 因子 
方差 分 析 的 结论 。 

比如 某 彩 电 生产 商 研发 了 4 款 彩 电 品 牌 (Ai~A4), 在 中 国 5 个 地 区 (Bi~B;) 进行 销售， 
其 销售 量 如 表 21-4 所 列 。 现 在 要 分 析 彩 电 品 牌 和 销售 地 区 是 否 对 彩电 的 销量 有 显著 影响 。 


表 21-4 5 个 地 区 的 四 款 彩电 销售 


我 们 分 别 对 因子 A 和 B 作 零 假设 : 品牌 对 彩电 销售 量 没有 影响 ， 地 区 对 彩电 销售 
量 没有 影响 。 程 序 21-15 的 代码 中 我 们 用 factorl 和 factor2 分 别 表示 因子 A M B: 


程序 21-15 双 因 子 方差 分 析 
data mydata; 
do factorl - 1 to 4; 
do factor2 - 1 to 5; 
input x Q0; 
output; 
end; 
end; 
cards; 
365 350 343 340 323 
345 368 363 330 333 
358 323 353 343 308 
288 280 298 260 298 
run; 


proc glm data-mydata; 
class factorl factor2; 
model x-factorl factor2; 
means factorl factor2/duncan alpha-0.01; 
run; 
quit; 


运行 结果 如 图 21-16 所 示 。 其 中 我 们 可 以 看 到 因子 factorl 和 factor2 的 下 值 分 别 为 
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18.11 和 2.10。 分 别 查 对 应 的 自由 度 的 Foo 临界 值 Fo. 12)=3.49，Foo(4, 12)=3.26。 对 
于 因子 factorl, 由 于 18.11 > 3.49, 拒绝 零 假设 , 说 明 品牌 对 彩电 的 销售 量具 有 显著 的 影响 。 
而 对 于 因子 factor 2， 由 于 2.10 < 3.26, 接纳 零 假 设 ， 说 明 销 售 地 区 对 彩电 的 销售 量 没有 
显著 影响 ， 各 地 区 的 销售 情况 没有 什么 差别 。 


Bun SE Des- (AHN) |es- wm — | xeremem | axem sasou 
t EI 


图 21-16 双 因 子 方差 分 析 


我 们 进一步 检查 因子 factorl 和 factor2 的 多 重 因 子 比 较 结 果 如 下 ， 可 知 factorl 中 的 
第 4 个 品牌 与 其 他 3 个 品牌 具有 显著 不 同 ， 说 明 该 品牌 的 销售 量 明显 拖 后 腿 。 而 factor2 
为 销售 地 区 ， 我 们 其 实 已 经 知道 它 对 彩电 销售 量 没 有 什么 影响 ， 它 们 也 都 归 入 相同 的 
Duncan 分 组 之 中 〈 见 图 21-17) 。 


Alpha 00 Alpha 001 
Error Degrees of Freedom. 12 Emor Degrees of Freedom 12 
Error Mean Square 2393917 Error Mean Square 2393917 
Number of Means. 2 3 4 Number of Means 2 3 4 5 
Ctical Range 29.89 31.16 31.98 Critical Range 33.42 3484 3576 3640 
BGUHTBNSEHHTR. BUOHTRSISRETHTR. 
Duncan fü — 均值 N| factori Duncan 分 组 均值 N factor2 
A 347.800 5 2 A 33925 4 3 
A A 
A 344200 5 1 A 33900 4 1 
A A 
A 337000 5 3 A 33025 4 2 
^ 
B 28480 5 4 ^ 31825 4 4 
^ 
^ x5s0 4 5 


21-17 双 因 子 方差 分 析 多 重 因子 比较 
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如 果 因 子 之 间 存 在 交互 作用 ，SAS 分 析 代 码 和 前 例 没 有 显著 不 同 ， 只 需要 将 交互 作 
用 的 因子 factorl*factor2 在 模型 中 给 出 即 可 〈 见 程序 21-16) 。 


程序 21-16 有 交互 作用 的 双 因 子 方差 分 析 
Proc glm data=mydata; 
class factorl factor2; 
model x-factorl factor2 factorl*factor2; 
means factorl factor2/duncan alpha-0.01; 
run; 
quit; 


需要 特别 注意 的 是 ， 进 行 存在 交互 作用 的 双 因子 分 析 ， 要 求 数据 必须 有 重复 的 ， 否 
则 是 不 能 检验 两 个 因子 的 交互 作用 是 否 显著 。 


数据 标准 化 


在 对 多 变量 数据 进行 统计 分 析 处 理 时 , 往往 需要 对 变量 数据 进行 统一 尺度 或 者 无 量 纲 化 ， 
称 为 数据 标准 化 。 数 据 标准 化 就 是 将 数据 按 比例 缩放 使 之 投影 到 一 个 特定 区 间 ， 为 指标 处 理 
的 比较 和 评价 消除 单位 影响 ， 使 不 同 单位 或 者 量 级 的 变量 能 够 进行 比较 、 累 加 和 汇总 运算 。 

典型 的 数据 标准 化 包括 数据 归 一 化 处 理 ， 就 是 将 数据 映射 到 [0, 1] 区 间 上 ， 它 不 但 
能 提高 模型 的 收敛 速度 ， 也 能 提升 模型 的 精度 。 比 如 聚 类 分 析 中 对 象 之 间距 离 的 计算 ， 
归 一 化 可 抑制 指标 值 较 大 的 变量 对 结果 的 影响 ， 保 证 各 特征 对 结果 贡献 相同 。 消 除 量 纲 
则 主要 解决 数据 的 可 比 性 ， 使 它们 在 对 模型 的 贡献 上 具有 平衡 的 影响 。 另 外 ， 除 非 各 维 
度数 据 分 布 范 围 本 来 就 比较 接近 ， 有 些 模 型 在 各 维度 不 均匀 伸缩 后 ， 最 优 解 与 原来 数据 
计算 出 来 的 解 不 等 价 ( 如 SVM) ,这 种 情况 下 则 必须 对 数据 进行 标准 化 才能 进一步 处 理 。 
而 一 些 模型 不 管 伸缩 与 否 ， 所 求 的 最 优 解 与 数据 变换 前 等 价 〈 如 逻辑 回归 ) ， 则 标准 化 
只 会 改善 收敛 速度 ， 此 时 标准 化 处 理 是 可 选 的 。 

在 数据 分 析 科 学 中 有 相当 多 的 统计 量 或 指标 取 值 在 区 间 [-1, 1] 上 ， 我 们 也 一 般 倾 向 于 
通过 取 绝 对 值 或 者 平方 将 数据 变换 到 [0, 1] 上 ， 这 样 就 跟 概率 P 值 的 取 值 范围 相同 。 


22.1 常用 标准 化 方法 


数据 标准 化 的 方法 非常 多 , 它 本 质 上 就 是 一 种 数据 变换 。 下 面 列 出 了 一 些 常用 的 方法 : 
(1) Min-Max 标准 化 : 也 称 离 差 标准 化 或 0-1 标准 化 ， 它 将 原始 数据 按照 [min, 
max] 线性 映射 到 [0, 1] 上 。 由 于 此 种 标准 化 方法 依赖 于 最 大 值 和 最 小 值 构成 的 极 差 ， 因 
此 变换 比较 不 稳定 ， 但 它 是 最 简单 的 数据 标准 化 方法 : 
__(X - min) 
(max— min) 
如 果 和 希望 将 数据 映射 到 [-1, 1] 上 ， 可 以 将 原始 数据 减 去 均值 再 除 以 极 差 : 
x =» 
(max— min) 
(2) Z-Score 标准 化 : 是 最 常用 的 标准 化 方法 ， 它 将 原始 数据 变换 为 均值 为 0 和 方 
差 为 1 的 新 数据 。 如 果 原 始 数据 符合 正 态 分 布 ， 即 -Nu, o)， 则 标准 化 数据 符合 标准 
ESDM X-NO, 1)。 这 种 标准 化 方法 适用 于 总 体 数据 的 最 小 值 /最 大 值 未 知 ， 或 样本 数 
据 不 包含 离 群 值 的 情况 。 计 算 方法 就 是 对 每 列 数据 计算 均值 y 和 标准 差 as， 然后 将 原始 


x' 
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数据 减 去 均值 x"， 再 除 以 标准 差 c。 
y Xs 
o 
标准 化 后 的 数据 如 果 大 于 0 表示 高 于 平均 水 平 ， 否 则 表示 低 于 平均 水 平 。Z-Score 
标准 化 后 的 数据 并 不 在 落 在 [0, 1] 区 间 上 ， 而 是 标准 化 后 数据 的 均值 为 0， 方 差 为 1。 
图 22-1 展示 了 SAS 系统 数据 SASHELPCLASS 两 个 变量 身高 和 体重 ， 使 用 Z-Score 


标准 化 前 和 标准 化 后 的 对 比 图 。 

140 ] 

1204 

e 

$ 199] 

b 

XR 

804 

604 
3B xj dd ME Gc oix dm db GE 28 ix GN ix [B 30 de :B ix 
dz [EE HD mm de XR ROGA Xu HR ORK ESO RT we I2 d$ HD d 
TNI m K kE O RA PARK 
È 

一 一 身高 (英寸 ) 一 一 体重 ( 磅 ) 


(a) 


身高 (英寸 ) 


(b) 
图 22-1 数据 Z-Score 标准 化 前 后 
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G) 小 数 定 标 标 准 化 : 按照 原始 数据 中 绝对 值 最 大 的 那个 数值 ， 将 所 有 数据 的 小 
数 点 移动 指定 位 数 来 缩放 数据 到 [-1, 1] 区 间 上 : 
vod 
^10 
HP j= ceill logg ). j 是 绝对 值 的 最 大 值 取 常 用 对 数 后 ， 向 上 取 整 所 得 到 的 整 
数 。 例 如 数据 12, 345, 678, -987. -654, -321 ， 其 绝对 值 的 最 大 值 为 987， 取 常用 对 数 变 
换 后 向 上 取 整 结果 为 3, 因此 小 数 点 需要 向 前 移动 3 位 , 则 原始 数据 都 除 以 10 得 到 0.012, 
0.345, 0.678, -0.987, -0.654, -0.321. 
(4) 最 大 绝对 值 归 一 标准 化 : 将 绝对 值 最 大 的 那个 值 归 一 ， 所 有 的 数据 除 以 它 将 数 
据 变 换 到 [-1, 1] 之 间 。 
p 2 
E 
(5) 总 和 归 一 标准 化 : 如 果 指 标 数据 都 大 于 零 ， 可 将 所 有 指标 数据 总 和 归 一 ， 所 有 
数据 除 以 它 变换 到 [0, 1] 之 间 。 因 此 ， 该 变换 会 将 整个 变量 的 总 和 压缩 到 1。 
-: 
^ Sum(x) 
(6) Logistic 寡 函 数 变换 : f FEE R AOR Jt t PLI, AEKA 8 0 
之 间 的 数据 趋向 于 0， 大 于 零 到 正 无 穷 的 数据 趋向 于 1。 这 种 变换 通常 称 为 S 函数 变换 ， 
广泛 用 于 神经 网 络 和 逮 辑 回归 分 析 中 〈 见 图 22-2) 。 


-20  -i0 0 10 20 
图 22-2 Logistic TER Zi AE M 


C7) atan 三 角 函 数 变换 ， 该 变换 可 以 将 数据 变换 到 [-1, 1] 之 间 ， 其 中 大 于 零 的 数 
据 被 映射 到 [0.1] 区 间 上 ， 而 小 于 零 的 数据 被 映射 到 [71, 0] 区 间 上 。 与 上 面 的 Logistic 1 
函数 变换 有 类 似 之 处 〈 见 图 22-3) 。 


I-Z 
T 
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-20  -io 0 10 20 
图 22-3 Atan 三 角 函 数 变换 


(8) Log10 对 数 函数 变换 : 当 所 有 的 数据 都 大 于 等 于 0 时 ， 可 以 使 用 常用 对 数 函 
数 进行 变换 ( 见 图 22-4 所 示 ) 。 即 


X'-logl0(X) 
如 果 希 望 变换 后 的 数据 落 到 [0. 1] 区 间 上 ， 还 需要 除 以 最 大 值 的 对 数 变换 值 ， 即 
ics log10(X) 
log10[ max ([X]) | 
2.0 
1:5 
> 1.0 
0.5 
0.0 
20 40 60 80 100 


图 22-4 Log10 常用 对 数 变 换 


22.2 SAS 数据 标准 化 


在 SAS 中 数据 标准 化 可 采用 多 种 方法 ， 甚 至 有 些 数据 分 析 过 程 步 自 带 选 项 ， 对 数 
据 进行 自动 标准 化 处 理 。SAS 中 专门 处 理 数据 标准 化 的 过 程 步 有 PROC STANDARD 和 
PROC STDIZE， 如 果 用 户 需 要 扩展 数据 标准 化 方法 ， 可 自己 编写 函数 实现 。 

(1) 使 用 过 程 步 PROC STANDARD 来 将 原始 数据 标准 化 需要 指定 均值 mean 和 标准 
差 std。 其 本 质 就 是 上 面 的 Z-Score 标准 化 方法 。 数 据 标准 化 只 能 作用 在 量化 变量 如 age, 
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height 和 weight 上 〈 见 程序 22-1) o 


程序 22-1 z-score 数据 标准 化 示例 
Proc means data=sashelp.class; 
run; 


/* 调 用 PROC STANDARD 进行 标准 化 */ 
proc standard data-sashelp.class mean=0 std=1 out=class std; 
var age height weight; 


六 验证 标准 化 后 数据 的 均值 和 标准 差 是 于 为 dyin 

proc means data-class std; 

run; 

系统 输出 如 图 22-5 所 示 ， 从 PROC MEANS 的 输出 中 可 以 看 到 ， 各 列 数据 被 标准 化 
成 均值 为 0， 标准 差 为 1 的 数据 。 


变量 。 标签 N 均值 TEL 最 小 值 md 


Age ES 19 13.3157895  1.4926722 11.0000000  16.0000000 
Height 身高 (3:1) 19 | 62.3368421  5.1270752 51.3000000  72.0000000 
Weight 体重 (8) 19 100.0263158 22.7739335 50.5000000 150.0000000 


eo ORE p" mL 
变量 dai N 均值 meg “最 小 值 ”最 大 值 
Age 8 19 -4.67462E-17 1.000000 | -1.5514388 1.7982586 


Height EX (3:1) | 19 9.582978E-16 1.0000000 -2.1526585 1.8847310 
Weight | 体重 (=) 19 -5.25895E-17 1.0000000 -2.1746931 2.1943370 


Wp en 
Dp me er 
pene - m E P 


图 22-5 标准 化 前 后 的 基本 统计 量 


如 果 希 望 在 标准 化 后 的 数据 集中 保留 变换 之 前 的 数据 ,可 以 采用 如 下 两 种 方法 实现 。 

将 需要 标准 化 的 变量 或 数据 列 复制 一 份 ， 然 后 仅 对 这 些 新 列 进行 标准 化 。 程 序 22-2 
的 代码 中 先 创建 了 3 个 计算 变量 AGE STD. HEIGHT STD 和 WEIGHT STD ， 然 后 对 
新 建 列 作 标准 化 。 


程序 22-2， 标 准 化 后 保留 原 有 的 数据 列 : 临时 数据 集 方法 
data class tmp; 

set sashelp.class; 

age std -age; 

height std -height; 

weight std -weight; 
run; 


proc standard data-class tmp mean-0 std-1 out-class std; 
var age std height std weight std; 

run; 

proc print data-class std;run; 


先 对 数据 进行 标准 化 , 然后 用 PROC SQL 将 标准 化 之 前 的 数据 合并 到 结果 数据 集中 ， 
见 程序 22-3 所 示 : 
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程序 22-3 标准 化 后 保留 原 有 的 数据 列 : PROC SQL 合并 
proc standard data-sashelp.class mean-0 std-1 out-class tmp; 
var age height weight; 
run; 
proc sql; 
create table class std as 
select orig.name, 
orig.sex, 
orig.age, 
orig.height, 
orig.weight, 
tmp.age as age std, 
tmp.height as height std, 
tmp.weight as weight std 
from sashelp.class as orig,  work.class tmp as tmp 
where orig.name-tmp.name; 
run; 
quit; 


(2) SAS 专业 统计 包 SAS/STAT 提供 过 程 步 PROC STDIZE， 它 提供 多 达 19 种 数 
据 标准 化 方法 ， 默 认 方法 为 STD, 即 Z-Score 标准 化 。 每 种 标准 化 方法 以 数据 分 布 的 位 置 
和 尺度 衡量 ， 变 换 时 将 位 置 工 对 应 的 统计 量变 换 为 0， 再 除 以 尺度 S， 即 X'—QC-Ly'S. 
表 22-1 列 出 了 SAS 支持 的 数据 标准 化 方法 名 称 以 及 对 应 的 位 置 工 和 尺度 So 


表 22-1 PROC STDIZE 支持 的 数据 标准 化 方法 
一 sa 


NAE 标准 化 后 Median=0 
中 位 数 绝 对 偏差 


AGK 估计 (ACECLUS) 
标准 差 Z-Score 标准 化 
和 总 和 归 一 法 
绝对 值 的 最 大 值 最 大 绝对 值 归 一 法 
原始 标准 差 
SPACING(p) 中 间 平 均值 最 小 间距 
AWAVE(c) Wave 单 步 M- 估计 WaveA- 估计 
AHUBER(c) Huber 单 步 M- 估计 Huber A- 估计 
ABW(c) 双 权 单 步 M- 估计 双 权 A- 估计 
IN(ds) 从 数据 读 入 从 数据 读 入 
L(p) L) L(p) 


比如 用 Z-Score 标准 化 方法 标准 化 数据 的 METHOD. 参数 为 STD， 它 与 PROC 
STANDARD 等 价 ， 其 他 常用 的 标准 化 方法 也 一 并 列举 如 程序 22-4 所 示 。 


第 22 章 数据 标准 化 


程序 22-4 常用 数据 标准 化 方法 在 PROC sTDIZE 中 的 实现 

proc stdize data-sashelp.class out-class std method-STD; 
var age height weight; 

run; 


/*Min-Max 标准 化 : method-RANGE* / 

proc stdize data-sashelp.class out-class std method-RANGE; 
var age height weight; 

run; 


/* 总 和 归 一 标准 化 : method-SUM*/ 

proc stdize data-sashelp.class out-class std method-SUM; 
var age height weight; 

run; 


/* 最 大 绝对 值 归 一 标准 化 : method-MAXABS* / 

proc stdize data-sashelp.class out-class std method-MAXABS; 
var age height weight; 

run; 


G) 由 于 大 部 分 数值 计算 是 基于 二 维 数组 进行 的 ， 能 否 重用 SAS 过 程 步 
STANDARD 或 STDIZE 对 该 二 维 数 组 进行 标准 化 呢 ? 答案 是 肯定 的 。 可 以 先 将 PROC 
步 封装 成 SAS E %standard， 然 后 再 通过 FCMP 函数 调用 该 SAS 宏 来 实现 。 这 种 方法 可 
实现 在 一 个 DATA 步 内 调用 另外 一 个 PROC 步 的 功能 〈 见 程序 22-5) 。 


程序 22-5 将 PROC STANDARD 过 程 步 封装 为 SAS 宏 

/* 将 PROC STANDARD 封装 为 宏 */ 

*macro standard; 
$1et dsname-$sysfunc (dequote (&DSNAME) ) ; 
proc standard data-&DSNAME mean-&MEAN std-&STD out-&dsname; 
run; 

S&mend standard; 


此 时 该 SAS 宏 可 以 在 数据 集 的 层面 上 进行 调用 〈 如 程序 22-60 ， 但 我 们 的 目的 是 
在 数组 上 使 用 该 PROC STANDARD 过 程 步 。 因 此 ， 还 需要 利用 FCMP 实现 桥接 。 


程序 22-6 *STANDARD 宏 示例 
data class2; 
set sashelp.class; 
run; 
$1et dsname-class2; 
$1et mean-0; 
$1et std-1; 
*standard; 


程序 22-7 利用 FCMP 函数 将 DATA 步 的 程序 空间 和 PROC 步 的 程序 空间 进行 桥接 : 
程序 22-7 将 SAS 宏 封装 为 FCMP 函数 以 对 数组 元 素 进行 标准 化 处 理 


proc fcmp outlib-work.funcs.standard; 
function standard(x[*,*], mean, std); 
outargs x; 
dsname-'work. TMP '; 
rc-write array(dsname, x); /* 将 数组 写 到 临时 表 */ 
rc-run macro('standard'，dsname，mean,，std) ;/* 用 安 对 临时 表 标准 化 */ 


if rc-0 then do; 
array y[1] temporary ; /* 需 要 将 单列 和 多 列 分 别处 理 */ 
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rows-dim(x); cols-dim(x,2); 


if cols-1 then do; 
call dynamic array(y, rows); 
rc-read array(dsname, y); 
do i-1 to rows; 
x[i,ll-yli ]; 
end; 
end; 
else do; 
call dynamic array(y, rows, cols); 
rc-read array(dsname, y); 
do i-1 to rows; 
do j-1 to cols; 
x[i,jl-y[i,31]; 


end; 
end; 
end; 
end; 
return(rc); 
endsub; 
run; 
这 样 就 可 以 在 DATA 步 内 调用 FCMP 函数 对 内 存 中 的 数组 进行 数据 标准 化 了 《和 见 程 
序 22-8) 。 


程序 22-8 ”对 变量 数组 进行 数据 标准 化 
options cmplib= (work.funcs); 
data class std ; 
array w[19,3] temporary ; 
do i-1 to rows; 
set sashelp.class point-i nobs-rows; 
w[i,l]-age; 
w[i,2]-height; 
w[i,3]-weight; 
end; 


rc-Standard (w, 0, 1); 


if rc-0 then do; 
do i- 1 to rows; 
set sashelp.class point-i nobs-rows; 
age-w[i,l]; 
height-w[i,2]; 
weight-w[i,3]; 
output; 
end; 
end; 
drop rc; 
stop; 
run; 
proc print data-class std;run; 


系统 输出 class std 数据 集 ， 其 中 Weight 和 Height 列 数据 被 调用 PROC STANDARD 
标准 化 。 为 方便 调用 ， 一 般 用 二 维 数组 做 参数 ， 这 样 就 可 以 处 理 多 列 。 
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22.3 自 定 义 数据 标准 化 


如 果 SAS 提供 的 各 种 数据 标准 化 方法 不 能 满足 业务 需求 ， 用 户 必 须 自 己 实 现 特定 的 
数据 标准 化 方法 以 及 数据 变换 操作 。 实 践 中 由 于 数据 变换 一 般 面向 数组 进行 ， 则 我 们 需 
要 定义 通用 的 函数 对 输入 数组 参数 进行 处 理 。 下 面 以 FCMP 函数 实现 小 数 定 标 标 准 化 和 
Z-Score 标准 化 为 例 加 以 说 明 ( 见 程序 22-9) 。 


程序 22-9” 自 定义 实现 小 数 定 标 标准 化 方法 
proc fcmp outlib-work.funcs.preprocess library-work.funcs; 
/* 求 二 维 数组 某 列 的 最 小 值 */ 
function getcolmin (d[*,*],col); 
cols-dim(d,2); 
if col «- cols then do; 
rows-dim(d,1); 
colmin-d[1,col]; 
do i-2 to rows; 
if d[i,col]«colmin then colmin-d[i,col]; 
end; 
return (colmin); 
end; 
return (.); 
endsub; 
/* 求 二 维 数组 某 列 的 最 大 值 */ 
function getcolmax(d[*,*],col); 
cols-dim(d,2); 
if col «- cols then do; 
rows-dim(d,1); 
colmax-d[1,col]; 
do i-2 to rows; 
if d[i,col]»colmax then colmax-d[i,col]; 
end; 
return (colmax); 
end; 
return (.); 
endsub; 
/* 实 现 小 数 定 标 标准 化 方法 DecimalScaling*/ 
function DecimalScaling(d[*,*],o[*,*]):; 
outargs o; 
rows-dim(d,1); 
cols-dim(d,2); 
if rows-. or cols-. then return(1); 
do col-1 to cols; 
colmax-getcolmax(d, col); 
colmin-getcolmin(d, col); 
absmax-max( abs(colmax), abs(colmin)); 
je7ceil(10g10(absmax)); 
do row-1 to rows; 
o[row,col]- d[row,col] /(10**3); 
end; 
end; 
return (0); 
endsub; 
run; 
quit; 


然后 用 上 面 定义 函数 DECIMALSCALING 来 标准 化 SASHELP.CLASS 数据 集中 的 
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数值 列 。 其 中 需要 将 数值 列 AGE、HEIGHT、WEIGHT 用 SAS 的 随机 访问 机 制 读 入 到 
二 维 数组 中 ， 然 后 统一 对 各 列 进行 变换 ( 见 程 序 22-10) 。 


程序 22-10 ” 自 定义 小 数 定 标 标准 化 方法 应 用 示例 
options cmplib=(work.funcs); 
data class std ; 

array w[19,3] temporary ; 

array o[19,3] temporary ; 


do i-1 to rows; 
set sashelp.class point-i nobs-rows; 
w[i,l]-age; 
w[i,2]-height; 
w[i,3]-weight; 
end; 


rc-DecimalScaling (w, 0); 
if rc-0 then do; 
do i-1 to rows; 
set sashelp.class point-i nobs-rows; 
age-o[i,1]; 
height-o[i,2]; 
weight-o[i,3]; 
output; 
end; 
end; 
drop rc; 
stop; 
run; 
proc print data-class std;run; 


系统 输出 如 图 22-6 所 示 ， 其 中 可 以 看 到 所 有 数值 列 都 变 成 小 数 。 


Obs age height weight Name Sex 
1/014, 0.690 0.1125 ERRER S 


2|0.14 0.635 0.1025 57) E 
3,012, 0.573 0.0830 51 男 
| 
rr re Newer 
17|0.14 0.643 0.0900 Xi& Es 
18/012, 0563 00770 99X — 女 
19 015 | 0.665 0.1120 玛丽 x 


图 22-6 编程 实现 数据 标准 化 


用 户 可 用 同样 的 方法 实现 最 大 绝对 值 归 一 标准 化 、 总 和 归 一 标准 化 以 及 Logistic 变 
换 、ATAN 变换 和 Log10 对 数 函 数 变换 等 。 对 于 简单 的 变换 如 Logistic 变换 、ATAN 变 
换 和 Log10 变换 可 在 DATA 步 内 实现 如 下 计算 列 即 可 完成 ， 但 对 于 需要 遍历 所 有 样本 的 
数据 标准 化 方法 ， 一 般 还 是 使 用 封装 函数 进行 比较 妥当 。 


y=1 /(1 + exp( -x )); 


pi-constant ("PI"); 
y-atan( x ) * 2 / pi; 


y-1ogl0 (x); 
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程序 22-11 实现 了 Z-Score 数据 标准 化 方法 ， 而 对 应 的 应 用 示例 可 参考 程序 22-12。 
程序 22-11 自 定义 实现 z-score 标准 化 方法 


proc fcmp outlib-work.funcs.standardize 7 
/* 求 二 维 数 组 某 列 均值 */ 
function getcolavg (d[*,*],c); 
cols-dim(d,2); 
if c «- cols then do; 
rows-dim(d,1); 
sum-0; 
do i-1 to rows; 
sum -sum * d[i,c]; 


end; 
return( sum / rows); 
end; 
return (.); 
endsub; 


/* 求 二 维 数组 某 列 方差 */ 
function getcolS2 (d[*,*],c); 
cols-dim(d,2); 
if c <= cols then do; 
avg-getcolavg(d, c); 
rows-dim(d,1); 
sum-0; 
do i-1 to rows; 
sum -sum + (d[i,c]-avg)**2; 


end; 
return( sum / (rows-1)); 
end; 
return (.); 
endsub; 


/* 自 己 实现 z-score 标准 化 */ 
function Standardize(d[*,*], o[*,*]); 
outargs o; 
rows-dim(d,1); 
cols-dim(d,2); 
if rows^-dim(o,1) or cols^-dim(o,2) then return(1); 


array avg[1] /nosymbols; 

call dynamic array(avg, cols); 

array s[1] /nosymbols; 

call dynamic array(s, cols); 

do c-1 to cols; 
avg[c]-getcolavg(d,c); 
s2-getcolS2 (d,c); 
if s2-0 then return(1);/* 标 准 离 差 小 于 等 于 0， 不 能 标准 化 处 理 */ 
s[c]=sqrt( s2 ); 

end; 

do r-1 to rows; 


do c-1 to cols; 
o[r,c]- (d[r,c]-avg[c1) /s[cl; 
end; 
end; 
return (0); 
endsub; 
run; 
quit; 
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程序 22-12 自 定义 z-score 数据 标准 化 应 用 示例 ， 结 果 输 出 到 class std 数据 集中 
options cmplib= (work. funcs) ; 
data class_std ; 

array w[19,3] _temporary_; 

array o[19,3] temporary ; 


do i-1 to rows; 
set sashelp.class point-i nobs-rows; 
w[i,l]-age; 
w[i,2]-height; 
w[i,3]-weight; 
end; 


rc-Standardize (w, o); 
if rc=0 then do; 
do i-1 to rows; 
set sashelp.class point-i nobs-rows; 
age-o[i,ll; 
height-o[i,2]; 
weight-o[i,3]; 
output; 
end; 
end; 
drop rc; 
stop; 
run; 


WRH PROC 完成 数据 标准 化 ， 其 等 价 的 SAS 代码 为 


proc standard data-sashelp.class out-class std mean=0 std-1;run; 


主 成 分 分 析 与 因子 分 析 


当 从 多 个 属性 或 特征 考察 对 象 时 ， 得 到 的 观测 数据 就 包含 多 个 变量 ， 此 时 待 分 析 的 
数据 也 就 包括 多 个 变量 ， 摆 在 数据 科学 家 面前 的 首要 任务 是 分 析 研 究 不 同 变量 之 间 的 关 
系 。 比 如 分 析 各 变量 之 间 是 否 存 在 统计 学 上 非 确定 性 的 相关 关系 ， 包 括 平行 关系 和 依存 
关系 。 处 理 多 个 变量 数据 的 统计 方法 统称 为 多 元 统计 方法 , 主要 包括 相关 分 析 (Corralation 
Analysis) 、 典 型 相关 分 析 (Cannonial Cooraltion Analysis) 、 主 成 分 分 析 (Principal 
Component Analysis) 、 因 子 分 析 (Factor Analysis) 、 聚 类 分 析 (Cluster Analysis) 和 判 
别 分 析 (Discriminant Analysis) 等 。 统 计 分 析 方 法 种 类 繁多 ， 但 分 析 的 目的 往往 是 对 类 
别 型 变量 进行 分 类 ， 或 是 对 数值 型 变量 进行 预测 。 笔 者 整理 的 常用 单 变量 和 多 变量 数据 
分 析 方法 如 图 23-1 所 示 。 


| 聚 类 分 析 判别 分 析 | 
! Cluster Analysis Discriminant Analysis | ! Time Series ! 
; 事先 并 不 知道 存在 什么 类 基于 已 知 分 类 的 样本 建立 io i 利用 某 变 量 历史 数据 确定 ! 
1 别 ， 完 全 按照 反 喘 对 象 特 判别 函数 ， 对 未 知 类 别 个 i i 其 模式 ， 并 认为 在 将 来 这 1 
i 征 的 距离 或 相似 性 对 变量 体 进 行 判定 归属 哪个 类 别 ; ; 一 模式 同样 有 效 进行 预测 
进行 观测 或 分 类 (总 体 ) Ha | 
相关 分 析 回归 分 析 | : ETT 分 析 

Correlation Analysis Regression Analysis |: Linear Regression 


变量 之 问 的 非 确定 性 统 研究 变量 之 问 的 非 确定 性 
HRR K 中 的 平 统计 关系 〈 相 关 ) 中 的 依 i 
行 关系 I2 RENS f 


i 变量 之 间 的 线性 关系 ， 以 
入 非 线 性 关系 转换 为 线 
be yon ] 


主 成 分 分 析 因子 分 析 Bc ed 
Principal Component Analysis Factor Analysis ] | k f 
保留 样本 中 方差 贡献 最 大 特 ”将 多 数 观 测 到 的 变量 综合 aM 
征 ， 采 用 降 维 思想 简化 分 析 ”为 少数 不 可 观测 的 因子 ， | | 
数据 探求 数据 内 在 特征 j iL 


- I 
; E 
E 
[5e 


推断 行 统计 
Desteplive Analysis Inferential Analysis ] ANOVA 

研究 样本 特征 ， 构 造 统计 量 ”以 样本 推断 总 体 特征 与 | 检验 多 个 正 态 总 体 均值 是 
或 用 图 形 工具 了 解数 据 分 布 ” 布 ， 用 样本 判断 对 总 体 | 否 相等 ， 定 量 Y= 定 类 X 
情况 假设 是 否 成 立 id 


图 23-1 常用 数据 分 析 方 法 一 览 表 


在 多 元 统计 分 析 方法 中 ， 主 成 分 分 析 与 因子 分 析 方法 是 用 来 分 析 一 组 变量 中 的 各 个 
变量 之 间 关 系 的 首要 分 析 方 法 。 当 研究 的 目标 是 两 组 变量 (两 个 变量 集 ) 之 间 的 关系 时 ， 


Es 
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我 们 需要 使 用 典型 相关 分 析 ， 它 通过 在 每 组 变量 中 寻找 若干 能 反映 两 组 变量 间 最 大 相关 
可 能 的 变量 之 线性 组 合 ， 对 两 组 变量 之 间 的 关系 进行 汇总 和 解释 。 


23.1 主 成 分 分 析 


主 成 分 分 析 (Principal Component Analysis, PCA) 是 统计 学 家 卡尔 。 皮 尔 逊 在 
1901 年 对 非 随机 变量 的 分 析 和 数理 建 模 时 引入 的 ， 后 来 被 广泛 应 用 于 随机 变量 领域 。 其 
核心 思想 是 在 尽 可 能 保留 样本 中 反映 数据 变异 特征 的 方差 ， 即 统计 学 上 数据 所 蕴含 的 信 
息 量 的 前 提 下 ， 如 何 找到 比 原来 变量 数目 更 少 的 变量 线性 组 合 ， 以 降 维 思想 来 简化 分 析 
数据 。 这 些 变量 的 线性 组 合 称 为 主 成 分 Principal Component) 。 主 成 分 分 析 大 致 揭示 
了 变量 之 间 可 能 存在 的 线性 依存 关系 ， 它 不 但 可 用 来 汇总 数据 ， 也 可 以 用 来 对 高 维 数据 
进行 降 维 ， 减 少 后 续 回 归 和 聚 类 等 数据 分 析 中 需要 处 理 的 变量 数目 ， 从 而 提供 了 一 种 将 
数据 从 高 维 空间 投影 至 低 维 空间 的 手段 。 其 数学 模型 可 概括 为 


Pp 
F =U'X B} F, = fX, X, X) S F, - uu X, 其 中 Gi, j 712,75, p, mp) 
i=l 


根据 测量 尺度 不 同 ， 对 于 类 别 型 数据 ， 可 以 使 用 原始 类 别 数据 或 者 它 的 频数 数据 作 
为 输入 ， 进 行 简单 对 应 分 析 或 多 重 对 应 分 析 (Correspondence Analysis) ， 用 来 揭示 各 类 
别 变量 所 代表 的 类 别 之 间 的 关系 。 对 应 分 析 使 用 类 别 变量 的 列 联 表 而 非 协 方差 矩阵 进行 
运算 ， 其 本 质 是 一 种 加 权 形 式 的 主 成 分 分 析 。 对 应 分 析 的 目的 是 在 少数 几 个 维度 上 对 若 
于 类 别 变量 之 间 的 关联 关系 (Associations) 进行 汇总 ， 对 应 分 析 的 输出 结果 为 各 类 别 在 
维度 上 的 投影 图 ， 投 影 图 上 的 两 个 轴 分 别 反映 对 应 分 析 的 维度 ， 各 维度 所 能 解释 总 信息 
量 的 百分比 一 般 不 同 。 

在 定性 数据 的 主 成 分 分 析 以 及 多 维 偏好 分 析 中 ， 有 些 类 别 数据 虽然 以 定量 数据 表示 ， 
但 通过 对 数据 应 用 恰当 的 线性 或 非 线 性 变换 ， 可 改善 协 方差 矩阵 或 相关 系数 矩阵 的 属性 。 
对 于 连续 型 数据 则 通常 可 使 用 标准 的 主 成 分 分 析 方 法 进行 分 析 ， 输 出 标准 化 或 非 标准 化 
主 成 分 得 分 。 在 主 成 分 分 析 输 出 的 成 分 评分 投影 图 中 ， 两 个 轴 上 反映 的 是 主 成 分 ， 而 各 
主 成 分 能 够 解释 总 体 变 异 的 百分比 一 般 是 不 同 的 。 

主 成 分 分 析 可 基于 协 方差 矩阵 〈Covariance Matrix). 进行 也 可 基于 相关 系数 矩阵 
CCorrelation Matrix) 进 行 。 当 原始 观测 数据 量 纲 不 同 , 或 者 各 变量 的 数据 量 级 差别 很 大 时 ， 
应 该 将 原始 数据 标准 化 成 均值 为 0， 方差 为 1 的 标准 化 数据 ， 再 计算 协 方差 矩阵 ， 而 此 
时 协 方差 矩阵 等 价 于 相关 系数 矩阵 。 

相关 系数 矩阵 值 域 在 [-1, 1] 上 ， 所 以 比 起 协 方差 矩阵 元 素 的 数值 具有 更 好 的 可 解释 
性 ， 因 为 相关 系数 矩阵 中 元 素 的 绝对 值 越 靠近 1 表明 两 个 变量 的 相关 性 越 强 ， 越 靠近 0 
则 表明 相关 性 越 弱 ， 而 正 负 号 则 表明 它们 是 正 相关 还 是 负 相 关 。 

主 成 分 分 析 与 因子 分 析 都 是 蕴含 降 维 思想 的 数据 分 析 方 法 ， 下 面 分 别 深入 齐 析 其 原 
理 和 方法 ， 随 后 以 具体 的 例子 讲述 如 何 对 分 析 结果 进行 解释 。 
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23.1.1 主 成 分 分 析 原 理 


假设 原始 观测 数据 包括 p 个 变量 ， 每 一 个 变量 的 数据 由 n 次 观测 组 成 ， 其 中 就 是 
样本 大 小 。 


Xis Nl “Il 
Xiz Xa, ”XpD 
Xins Xom ***, Xpn 


由 p 个 变量 组 成 的 数据 样本 可 看 作 是 由 p AAE X, 页，…, X 组 成 的 数据 ， 每 个 向 
量 对 应 于 数据 表 中 的 每 一 列 。 
X (35,255,777 x,) T1 G—12,-7 p) 
EHA p ARAESEHPERSPNARAESE X, X ZWT, mI FACE: 


Cov, X) 3 0 - 3X -3) 其 中 X -Ly x 712, n) 
mL | y 
而 计算 p 个 变量 中 任意 两 个 变量 天, X ZAHARRER, 则 可 以 根据 如 下 公式 算出 : 


Cov(X,, X,) Xe. -X)G,-X) 
JVarQr ) Var(X,) x €— nm p 


=1 

标准 化 数据 计算 出 来 的 协 方差 矩阵 跟 未 标准 化 数据 计算 出 来 的 相关 系数 矩阵 是 等 价 
的 ， 也 就 是 说 协 方差 CovCX; X) 除 以 变量 总 的 标准 差 [Tac 和 厂 的 标准 差 RICE 7， 
能 消除 了 两 个 变量 已 ， 已 的 量 纲 影响 。 可 以 说 相关 系数 矩阵 是 一 种 数据 标准 化 后 的 特殊 
协 方差 矩阵 ， 标 准 化 数据 计算 出 来 的 标准 差 为 1， 对 应 上 述 公式 中 的 分 母 为 1。 

主 成 分 分 析 通过 对 协 方差 矩阵 或 相关 系数 矩阵 可 求解 特征 值 4 和 特征 向 量 U， 主 成 
分 分 析 在 数学 上 就 是 一 个 正 交 线性 变换 ， 其 本 质 就 是 将 数据 从 变量 空间 变换 到 一 个 新 的 
正 交 坐标 系 中 ， 并 且 使 数据 的 任何 投影 的 第 一 大 方差 落 在 第 一 主 成 分 轴 厂 上 ， 第 二 大 
方差 落 在 第 二 个 主 成 分 轴 F, 上 ， 依 此 类 推 ( 见 图 23-2) 。 因 此 主 成 分 具有 3 个 特性 : 
各 个 主 成 分 彼此 独立 ， 即 协 方差 Cov(F, 已 -0， 对 任 一 主 成 分 已 ， 它 对 应 各 变量 系数 


的 平方 和 Zu =1; 第 1 主 成 分 到 第 p 主 成 分 的 方差 贡献 依次 递减 。 


r(X,, X,) 


图 23-2 ”变量 空间 与 主 成 分 空间 关系 
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主 成 分 分 析 求 解 出 的 特征 值 入 之 和 恰好 是 原 p 个 随机 变量 的 方差 之 和 ， 说 明 主 成 分 
分 析 将 原来 的 p 个 随机 变量 的 方差 之 和 分 解 成 了 新 的 个 不 相关 的 主 成 分 方差 页 献 ， 每 


—PHIBIEB A RERCEIRS NON ISSERSERUM, Elit A, / 9: A, BORGO ERA F RRR. 


W KAERAREN YA. 则 它 ERREPARA YA JA. 
它 说 明 这 上 个 主 成 分 能 够 反映 原来 p 个 变量 所 表示 的 信息 量 的 百分比 。 实践 中 通常 要 求 
选 入 的 个 主 成 分 ， 其 方差 累计 贡献 率 必须 在 80% 以 上 。 

构造 出 来 的 主 成 分 和 原 变量 之 间 满 足 关系 F=UX，U' 为 矩阵 UU 的 转 置 和 矩阵 ， 和 矩阵 
U-(t, wy, +, u) [u] rp i J51, 2,…,p。 则 第 j 个 主 成 分 五 与 原 变量 之 间 满 足 如 下 线性 
组 合 关系 : 


E 
F; =) uX, EH j=1,2,,m, n< p 
i=l 


而 反 过 来 ， 原 变量 与 主 成 分 之 间 则 有 和 EUF， 原 变量 与 主 成 分 的 相关 程度 取决 于 对 
应 的 线性 组 合 系 数 的 大 小 : 


PK, F,)= Cov(X,, F) (o, 4) uj; [ (o; 2, ) =u A, fo; 
JU AER X, ME o? Pu A, 2 RREI F NENEA X, i 
方差 ， 如 果 提 取 了 m^ DERD, Bi IR Eit X PS fe TERERAA 


wA |o= E) 
ja 

在 SAS 中 有 多 个 过 程 步 能 够 做 主 成分 分 析 ， 包 括 ; 

(1) PROC CORRESP 分 类 数据 和 频数 数据 的 主 成 分 分 析 , 输入 数据 为 列 联 表 或 原 
始 数据 ， 进 行 简单 对 应 分 析 或 多 重 对 应 分 析 。 

(2) PROC PRINQUAL 使 用 于 对 定性 数据 执行 主 成 分 分 析 ， 包 括 类 别 数据 和 定 序 
数据 ， 也 可 用 于 多 维 偏好 分 析 。 

(3) PROC PRINCOMP 对 连续 型 数据 执行 主 成 分 分 析 ， 输 出 标准 化 或 非 标准 化 的 
主 成 分 得 分 ， 是 SAS 中 执行 主 成 分 分 析 的 主要 过 程 步 。 

(4) PROC FACTOR 执行 各 种 探索 性 因子 分 析 ， 支 持 旋转 并 输出 主 成 分 得 分 或 因 
子 得 分 的 估计 ， 需 要 注意 该 过 程 步 默 认 选 项 执行 的 是 主 成 分 分 析 。 

(5) PROC CANCORR 执行 典型 相关 分 析 并 输出 典型 变量 得 分 。 结 果 以 表格 展示 ， 
也 可 以 将 结果 输出 至 数据 集 进行 绘图 。 

(6) PROC PLS 使 用 包括 偏 最 小 二 乘法 在 内 的 线性 预测 方法 进行 模型 拟 合 ， 广 泛 应 
用 于 各 种 分 析 。PROC PLS 过 程 步 也 能 执行 主 成 分 回归 分 析 ， 回 归 的 输出 可 用 于 预测 。 


23.1.2 ” 主 成 分 分 析 的 具体 步骤 


下 面 以 SASHELP.CLASS 为 例 ， 用 PROC PRINCOMP 简单 解释 主 成 分 分 析 的 步骤 
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和 逻辑 。 数 据 分 析 作 为 一 种 需要 结合 具体 经 验 的 解释 型 学 科 ， 分析 方 法 本 身 对 数据 的 语 

义 并 不 敏感 。 因 此 才 有 “模型 省 有 误 ， 或 尤 建 奇 功 ”这 一 至 理 名 言 。 程 序 23-1 和 程序 

23-2 分 别 基于 相关 系数 和 协 方差 矩阵 对 SASHELP.CLASS 的 量化 变量 进行 主 成 分 分 析 。 
程序 23-1 ”基于 相关 系数 矩阵 对 SASHELP.CLASS 做 主 成 分 分 析 


proc princomp data-sashelp.class ; 
run; 


程序 23-2 ”基于 协 方差 矩阵 对 SASHELP.CLASS 做 主 成 分 分 析 
proc princomp data-sashelp.class COV ; 
run; 


基于 协 方差 矩阵 的 主 成 分 分 析 结 果 如 下 《〈 见 图 23-3) ， 结 果 各 部 分 的 解释 如 下 : 


| 
23-3 ”基于 协 方差 矩阵 的 主 成 分 分 析 结果 


COD 观测 数 : 其 中 可 以 解读 出 PRINCOMP 使 用 3 个 定量 变量 AGE、HEIGHT、 
WEIGHT 进行 主 成 分 分 析 ， 由 于 PRINCOMP 是 用 于 连续 型 变量 的 主 成 分 分 析 , 变量 
NAME 和 SEX 为 定 类 变量 不 参加 分 析 ， 因 此 实际 分 析 的 观测 数 为 19, 变量 数 为 3。 

(2) 简单 统计 量 : 包含 各 变量 的 均值 和 标准 差 ， 如 AGE 的 均值 为 13.31578947， 
标准 差 为 1.49267216， 标 准 差 的 平方 正 是 协 方差 矩阵 ( 见 图 23-4) 对 角 线 元 素 的 值 ， 如 
AGE X AGE=2.2280702。 


LL 
Age Height Weight 


Age |= 22280702 62099415 | 25.1856725 
Height SÆ (Std) 62099415 26.2869006 102.4934211 
Weight | 体重 (m 25.1856725 102.4934211 518.6520468 


23-4 WIERE 


(3) 协 方差 矩阵 : 列 出 了 3 个 变量 两 两 之 间 的 协 方差 计算 值 ， 其 中 对 角 线 元 素 为 3 


SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


个 变量 AGE、HEIGHT 和 WEIGHT 各 自 的 方差 ， 如 AGE X AGE= 2.2280702。 
协 方差 对 角 线 元 素 之 和 为 3 个 原 变量 的 总 方差 o? + oz +a? ， 即 547.16701754 = 
2.2280702 + 26.2869006 + 518.5620468. 

(40 总 方差 : 列 出 了 3 个 原始 变量 的 总 方差 547.16701754， 在 数据 分 析 科 学 中 ， 
方差 代表 了 数据 所 隐 含 的 信息 量 ， 类 似 于 化 学 中 描述 系统 混乱 程度 的 粹 值 。 

C5) 特征 值 和 特征 向 量 : 基于 协 方差 矩阵 可 计算 出 3 个 特征 值 4= 540.383364, 
4576.064653 和 2,7 0.719001 ( W RI 23-5) ， 分 别 代表 主 成 分 分 析 形 成 的 3 个 主 分 量 
PRIN1、PRIN2 和 PRIN3 对 总 体 方差 547.16701754 的 贡献 ， 即 2+4 总 方差 。 

每 一 个 主 成 分 PRIN1、PRIN2 和 PRIN3 对 总 体 方差 的 贡献 比率 为 和 / 总 方差 ， 它 分 
别 等 于 0.9876、0.0111 和 0.0013， 累 积 贡 献 比 率 为 0.9876、0.9987 和 1.0000。 从 中 可 以 
看 出 第 一 个 分 量 PRIN1 就 已 经 贡献 98.76%， 超 过 了 80% 阅 值 ， 因 此 根据 选取 准则 我 们 
只 需要 一 个 主 分 量 PRIN1 就 可 以 了 。 


协 方差 矩阵 的 特征 值 
特征 值 差分 比例” 累积 
1|540.383364 534.318710 | 0.9876 | 0.9876 
2| 6064653 5345653 0.0111 0.9987 


3| 0.719001 0.0013 | 1.0000 
特征 向 县 
Prin1 Prin2  Prin3 
Age E 0.048098 | 0.220785 | 0.974136 


Height | 身高 (X7) 0.195851 0.954248 -0.225948 
Weight {E (=) 0.979453 |-0.201653 -0.002657 


图 23-5 ”特征 值 与 特征 向 量 


实际 上 ， 给 定 协 方差 矩阵 或 相关 系数 和 矩阵， 在 SAS 中 可 以 直接 使 用 PROC IML 过 
程 步 求 解 特征 值 和 特征 向 量 。 比 如 上 面 的 协 方差 矩阵 ， 可 用 程序 23-3 的 PROC IML 过 
程 步 求解 特征 值 和 特征 向 量 ， 其 结果 等 价 〈 见 图 23-6) 。 


程序 23-3 PROC IML 计算 特征 值 和 特征 向 量 
proc iml; 
A-( 
2.2280702 6.2099415 25.1856725, 
6.2099415 26.2869006 102.4934211, 
25.1856725 102.4934211 518.6520468 
}; 
call eigen (eigenvalues, eigenvectors, A); 
print A eigenvalues eigenvectors; 
quit ; 
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A eigenvalues eigenvectors 
2.2280702 | 6.2099415 25.185673 540.38336 0.0480984 | 0.2207849 0.9741358 
6.2099415 26.286901 | 102.49342 6.0646532 0.1958508 | 0.9542484 -0.225948 
25.185673 102.49342 518.65205 0.7190007 0.9794534 | -0.201653  -0.002657 


23-6 PROC IML 计算 特征 值 和 特征 向 量 


基于 协 方差 矩阵 的 主 成 分 分 析 结 果 ， 各 主 成 分 PRIN1, PRIN2 和 PRIN3 EREE 
AGE, HEIGHT WEIGHT 的 线性 组 合 。 主 分 量 和 原 变 量 之 间 的 系数 由 输出 的 特征 向 量 给 
出 ， 此 时 主 成 分 和 原 变量 有 如 下 数学 关系 : 


Prinl=0.048098 * (Age - Age Mean) + 0.195851 * (Height - Height Mean) 
+ 0.979453 * (Weight - Weight Mean) 


比如 对 于 第 1 个 观测 ， 其 主 成 分 得 分 Prinl 可 由 如 下 公式 计算 出 : 


Prinl-0.048098 * (14 - 13.31578947) + 0.195851 * (69 - 62.33684211) 
* 0.979453 * (112.5 - 100.0263158)-13.5553 


(O 陡坡 图 和 方差 图 各 特征 值 妨 和 主 成 分 能 够 解释 的 方差 可 由 陡坡 图 和 方差 图 ( 见 
图 23-7) 给 出 ， 其 中 方差 图 中 上 面 的 虚线 为 累计 方差 贡献 ， 下 面 的 实 线 为 各 分 量 的 方差 
贡献 ， 形 状 与 陡坡 图 是 一 样 的 。 


陡坡 图 已 解释 方差 


o REA 一 一 比例 


图 23-7 ”陡坡 图 和 方差 图 


上 面 为 采用 协 方差 矩阵 进行 主 成 分 分 析 ， 可 以 看 出 变量 WEIGHT 在 主 成 分 PRINI 
中 的 系数 最 大 。 原 因 是 变量 WEIGHT 的 数值 量 级 比较 大 〈 其 平均 值 为 100 左右 ) ， 而 
变量 AGE 数值 较 小 〈 其 平均 值 为 13) 。 为 了 消除 量 纲 和 单位 的 影响 ， 我 们 通常 需要 将 
数据 标准 化 《变换 后 数据 的 均值 为 0， 方差 为 1) 后 再 执行 主 成 分 分 析 ， 才 不 会 出 现 这 
种 偏差 。 程 序 23-4 首先 标准 化 3 个 量化 原 变量 AGE、HEIGHT、WEIGHT， 然 后 再 调用 
协 方差 方法 进行 主 成 分 分 析 : 
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程序 23-4 数据 标准 化 后 用 协 方差 矩阵 做 主 成 分 分 析 

proc standard data = sashelp.class out-class std mean = 0 std-1; 
var Age Height Weight; 

run; 


proc princomp data-class std cov ; 
run; 


由 数学 上 推导 可 知 ， 基 于 标准 化 数据 计算 的 协 方差 矩阵 等 价 于 相关 系数 矩阵 ， 因 此 
上 面 的 程序 输出 完全 等 价 于 如 下 使 用 相关 系数 矩阵 进行 的 主 成 分 分 析 ， 这 也 是 SAS 默认 
的 主 成 分 分 析 方法 选项 〈 见 程序 23-5) 。 

程序 23-5 ”默认 使 用 相关 系数 矩阵 做 主 成 分 分 析 


proc princomp data-sashelp.class ; 
run; 


从 相关 系数 矩阵 〈 见 图 23-8) 可 以 看 出 , HEIGHT 和 WEIGHT 关系 最 紧密 为 0.8778， 
其 次 为 HEIGHT 和 AGE 0.8114, 再 其 次 为 WEIGHT 和 AGE 0.7409。 

从 特征 值 累积 方差 贡献 上 也 可 以 看 出 只 需要 一 个 主 成 分 PRINT 即 可 达到 87.3896 
(0.8738)， 此 时 主 成 分 与 原 变量 的 标准 化 数据 有 如 下 关系 : 


Prinl = 0.560811 * Age Std + 0.593307 * Height Std + 0.577476 * Weight Std 


Bl SAS - FH RUER - SAS Output) @ $0 o x 
X: xir Wc NEV IAN MAGRO DON) NEH 
~ - mx vae 


auennsaa 

vaa xo u- xw 

1 26213543 235296403 0,8738 0.8738 
2 026839020 015813464 00895 09632 


3 011075556 00368 10000 
"ana 

Pnn Praz Pm 

[^E 056081 0795147 0230722 


Meigt EG (XS) 0593307 -0191592 -0781843 
Weight f&E (B) — 0572476 -0575355 0.579213 


wam Ennpa 


os 
5 
\ Li 
= as 94 N 
os o2 A- v 


Enes- (xem)  |Epricompsast | Ommen -sas oue | 
Em 


图 23-8 ”基于 相关 系数 矩阵 的 主 成 分 分 析 


i" 
此 


主 成 分 分 析 的 统计 量 和 结果 可 以 输出 到 数据 集中 《〈 见 程序 23-6) , OUTSTAT- 将 各 种 
统计 量 包括 相关 系数 ， 特 征 值 和 特征 向 量 〈 即 各 主 成 分 和 对 应 变量 的 系数 ) 输出 到 CLASS 
OUTSTAT "F, OUT= 将 原 变量 和 对 应 的 主 成 分 输出 到 指定 数据 集 CLASS OUT 中 。 


第 23 章 主 成 分 分 析 与 因子 分 析 M 


程序 23-6 输出 统计 量 主 成 分 得 分 

Proc princomp data=sashelp.class outstat=class outstat out=class out; 
run; 

proc print data-class outstat; 

run; 


上 面 的 过 程 步 输出 如 下 各 种 统计 量 〈 见 图 23-9) 。 


Obs TYPE_ _NAME_ Age Height Weight 
1 MEAN 133158 62.3368 | 100.026 


2| STD 1.4927 5.1271| 22.774 
3/N 19.0000 19.0000 19.000 
4| CORR Age 1.0000 0.8114 | 0741 
5| CORR Height 0.8114 1.0000 0.878 
6 | CORR Weight 07409 0.8778| 1000 
7 | EIGENVAL 2.6214 0.2684 0.110 
8 SCORE Prini 0.5608 0.5933, 0.577 
9 SCORE |Prin2 0.7951 -0.1916 | -0.575 
10 SCORE Pini 0.2307 -0.7818 0.579 


23-9 ”输出 统计 量 


输出 的 数据 集 CLASS_OUT 中 包括 3 个 原始 变量 和 3 个 新 的 主 成 分 得 分 ， 用 如 下 方 
法 验证 各 主 成 分 之 间 是 互相 独立 的 ， 即 各 主 成 分 是 线性 无 关 的 ， 其 单元 格 中 第 一 排 的 相 
关系 数 为 0 〈 见 程序 23-7 和 图 23-10) 。 


程序 23-7 ”验证 主 成 分 之 间 的 相关 性 

Proc corr data=class out out=class out corr prin prin; 
var prinl-prin3; 
with prinl-prin3; 

run ; 


Pearson 相关 系数 , N = 19 
Prob > Irl under HO: Rho=0 


Prin1 Prin2  Prin3 


Print 1.00000 0.00000 0.00000 
1.0000 1.0000 


Prin2 0.00000 1.00000 0.00000 
1.0000 1.0000 


Prin3 0.00000 0.00000 1.00000 
1.0000 1.0000 


23-10 主 成 分 之 间 的 相关 系数 


同 理 ， 可 以 检查 各 主 成 分 和 原来 的 各 变量 之 间 的 相关 关系 〈 见 程序 23-8) ， 输 出 结 
JR COLE 23-11) 的 第 1 行 (0.90799) 表示 因子 载荷 ， 反 映 了 主 成 分 受 某 个 原始 变量 影响 
的 程度 ， 绝 对 值 越 大 表示 影响 越 强 烈 ， 而 符号 则 表示 受 影 响 的 方向 ， 正 相关 还 是 负 相 关 。 
第 2 行 (<0.0001) 表示 零 假 设 下 的 检验 概率 ， 表 示 在 0.0190 水 平 上 显著 。 

程序 23-8 ”验证 主 成 分 和 变量 之 间 的 相关 关系 

Proc corr data=class out out=class out corr prin var; 

var prinl-prin3; 


with Age Height Weight; 
run ; 
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Pearson 相关 系数 , N = 19 
Prob > İr] under HO: Rho=0 


Prin1 Prin2  Prin3 


Age 0.90799 0.41194 0.07661 
E «0.0001 0.0797 0.7552 
Height 0.96060 -0.09926 -0.25961 
身高 (XX) «0.0000 (0.6860 02831 
Weight 0.93497 -0.29807 0.19233 


体重 (E) «0.00001 0.2152. 0.4302 


图 23-11 主 成 分 和 变量 之 间 的 相关 关系 


最 后 ， 可 使 用 程序 23-9 所 示 的 方法 将 主 成 分 分 析 的 结果 PRIN1 和 NAME， SEX 
列 输出 至 CLASS PRIN 中 ， 这 就 是 最 终 降 维 后 的 数据 集 ( 见 图 23-12) ， 可 供 进 一 步 
的 回归 或 聚 类 等 分 析 处 理 。 但 需要 记 住 的 一 点 是 ， 原 来 的 3 个 变量 AGE、WEIGHT、 
HEIGHT 的 信息 只 有 87.38% 被 保留 到 降 维 后 的 数据 集中 。 如 果 我 们 需要 更 多 的 信息 ， 
比如 96.32%， 可 以 选择 保留 2 个 主 成 分 PRIN1、PRIN2 到 结果 数据 集中 。 


程序 23-9 ”输出 主 成 分 数据 
data class prin; 
set class out; 
keep name sex prinl; 
run; 
proc print data-class prin; 
run; 


Obs Name Sex Prini 


1| ERABE S 1.34442 
2 | 妥 丽 丝 。 | 女 |-1.20046 
3| 苦 芭 拉 。 女 | 0.17287 
4| Am 女 0.37339 
5*5 E 0.45439 
6 iS: — 9-150895 
7 篇 女 -1.18162 
a| mes 。 | 女 | 0.96795 
olmam S |-0.50614 
10 | 约 险 = -0.89384 
n| FeR |z -340308 
12 X38 女 0.23001 
13 SER 女 -1.77682 
14 | 玛丽 女 | 141815 
15 | 菲利普 男 | 339388 
16 24859 = 0.50001 
|3% |= 205 
18 | 托马斯 男 -1.81080 
19 Zn» EJ 1.41815 


图 23-12 输出 主 成 分 数据 
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23.2 因子 分 析 


2324 因子 分 析 原 理 


因子 分 析 〈 也 称 公 因 子 分 析 ，Common Factor Analysis) 的 核心 思想 是 寻找 观测 到 
的 变量 背后 那些 控制 数据 变异 特征 、 不 可 观测 或 未 能 观测 到 的 隐 性 变量 。 在 因子 分 析 中 
这 些 观测 到 的 变量 称 为 表征 变量 (Manifest Variable) , ， 而 不 可 观测 的 隐 性 变量 (Latern 
Variable) 则 称 为 因子 CFactor) , 包括 各 变量 共享 的 公共 因子 以 及 各 变量 特定 的 特殊 因子 。 
因子 分 析 注 重 分 析 变 量 数据 的 内 部 结构 特征 ， 其 目的 是 试图 以 少数 几 个 不 可 观测 的 隐 性 
变量 , 来 分 解 和 解释 变量 之 间 存 在 的 相关 性 或 协 方差 ,因子 分 析 通 常 需要 使 用 旋转 变换 ， 
即 对 公 因 子 应 用 非 奇 异性 的 线性 变换 来 帮助 对 因子 的 解释 。 因 子 分 析 的 数学 模型 可 概 
括 为 

X-u-AF-& 


EIX, = (F, E, s F,)= X, =, + + KP GEL 2, pm p) 
ja 


与 主 成 分 分 析 试 图 构建 变量 的 线性 组 合 不 同 ， 因 子 分 析 是 试图 找到 控制 观测 变量 背 
后 的 共同 因子 。 因 此 因子 分 析 的 最 终结 果 一 一 因子 得 分 不 是 变量 的 线性 组 合 ， 而 是 隐 性 
变量 的 估计 量 。 上 面 的 数学 模型 中 万 是 不 可 观测 的 变量 ， 称 为 公 因子 ， 系 数 和 矩阵 ww 称 
为 因子 载荷 ， 表 示 因 子 能 预测 表征 变量 的 权重 ， 而 s 称 为 特殊 因子 ， 是 表示 公 因 子 之 外 
变量 五 所 特有 的 随机 作用 部 分 。 因 此 因子 分 析 是 用 隐 性 公 因 子 和 随机 影响 变量 的 线性 组 
合 来 表示 原 变 量 ， 是 原 变 量 的 分 解 ， 而 主 成 分 分 析 结 果 的 主 成 分 是 原 变量 的 线性 组 合 ， 
是 原 变量 的 综合 归纳 。 但 两 种 分 析 方 法 都 是 从 协 方差 矩阵 或 相关 系数 矩阵 出 发 的 降 维 分 
析 方 法 。 


23.2.2 巴特 利 球 度 检验 和 KMO 检验 


要 进行 因子 分 析 ， 其 前 提 条 件 是 各 变量 不 能 相互 独立 ， 如 果 所 有 变量 都 相互 独立 是 
无 法 进行 因子 分 析 的 。 因 此 ， 首 先 需 要 检查 各 变量 是 否 存在 相关 性 。 检 查 相关 性 可 以 用 
巴特 利 球 度 检验 (Bartlett Test of Sphericity) 和 KMO 检验 (Kaiser-Meyer-Olkin Measure 
of Sampling Adequacy) 。 

巴特 利 球 度 检验 的 零 假设 为 为 相关 系数 矩阵 与 单位 矩阵 没有 显著 差异 ， 即 相关 系 
数 和 矩阵 是 单位 矩阵 ， 各 变量 没有 公 因 子 。 备 择 假设 H 为 相关 系数 与 单位 矩阵 存在 显著 
差异 ， 相 关系 数 不 是 单位 矩阵 ， 各 变量 至 少 存在 一 个 公 因 子 。 如 果 巴 特 利 球 度 检验 的 统 
计量 较 大 且 对 应 的 概率 值 小 于 给 定 的 显著 性 水 平 ， 或 P- 值 小 于 0.05， 应 该 拒绝 零 假 设 ， 
表示 可 以 做 因子 分 析 ; 否则 不 能 拒绝 零 假设 ， 表 示 各 变量 之 间 相 互 独立 ， 没 有 公 因 子 ， 
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不 适合 进行 因子 分 析 。 

在 SAS 环境 中 ， 如 下 程序 23-10 对 PROC FACTOR 3 fb fi Hj METHOD-ML 和 
HEYWOOD 选项 即 可 进行 巴特 利 球 度 检 验 〈 见 图 23-13) 。 

程序 23-10 ”巴特 利 球 度 检 验 

proc factor data-sashelp.class method-ml heywood; 


title "Bartlett test of sphericity"; 
run; 


系统 输出 信息 的 “显著 性 检验 ”信息 如 下 ， 检 查 P- 值 小 于 0.0001 表示 需要 拒绝 零 
假设 “Ho: 无 公 因 子 ”， 则 应 该 接受 备 择 假设 “HA: 至 少 一 个 公 因子 ”， 表 示 可 以 做 因 
子 分 析 。 


基于 19 观测 的 显著 性 检验 


Pr> 
检验 自由 度 卡 方 c5 
H0: 无 公 因子 3 413313 «0.0001 
HA: 至 少 一 个 公 因子 
H0: 1 个 因子 足够 0 0.0000 «0.0001 
HA: 雳 要 更 多 因子 


图 23-13 ”巴特 利 球 度 检验 


KMO 检验 全 称 为 KMO 抽样 适度 测定 值 ， 是 检测 Kaiser 抽样 适当 性 的 统计 量 。 它 
通过 比较 所 有 变量 间 的 简单 相关 系数 和 偏 相 关系 数 的 大 小 来 判断 变量 间 的 相关 性 ， 即 


KMO- 相关 系数 平方 和 /〈 相 关系 数 平方 和 + 偏 相 关系 数 平方 和 ) 
当 所 有 变量 间 的 简单 相关 系数 平方 和 远大 于 偏 相关 系数 平方 和 时 ， 由 上 面 的 公式 可 


知 KMO 值 接近 于 1， 表 示 变 量 间 的 相关 性 越 强 ， 原 变量 集 越 适 合 做 因子 分 析 ; 否则 ， 
当 所 有 变量 间 的 简单 相关 系数 平方 接近 于 0 时 ，KMO 值 也 接近 于 0， 变 量 间 的 相关 性 越 
弱 , 原 变量 集 不 适合 做 因子 分 析 。 通 常情 况 下 ,因子 分 析 要 求 KMO 值 一 般 大 于 0.7,0.7~0.8 
表示 适合 ，0.8~0.9 表示 很 适合 ，0.9~1.0 表示 非常 适合 ; 0.6~0.7 表示 不 太 适 合 进行 因子 
分 析 ， 而 0.5 以 下 则 表示 极 不 适合 进行 因子 分 析 。 在 SAS 中 ， 通 过 PROC FACTOR 上 使 
用 MSA 选项 ， 即 可 输出 抽样 适当 性 检测 结果 ( 见 程 序 23-11) o 

程序 23-11 KMO 检验 

Proc factor data=sashelp.class msa; 

title "KMO Test"; 

run; 

系统 输出 的 “抽样 适当 ”检测 结果 如 下 〈 见 图 23-14) 。 这 里 输出 MSA=0.72301602 
表示 SASHELPCLASS 适合 进行 因子 分 析 ， 但 也 没 达到 “很 适合 ”或 “非常 适合 ”做 因 


子 分 析 的 程度 。 
Kaiser 抽样 适当 性 测度 : 总 体 MSA = 0.72301602 
Age | Height Weight 
0.82216940 0.65662258 0.72240279 


23-14 KMO 检验 结果 
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完成 因子 分 析 的 前 提 条 件 检 测 后 ,才能 进入 因子 分 析 的 下 一 环节 ， 即 确定 因子 个 数 。 
一 般 的 准则 是 要 求 因子 分 析 的 特征 值 大 于 1， 且 方差 累计 贡献 率 在 100% 以 上 进行 综合 
判断 。 因 子 的 可 解释 性 准则 包括 : (D 每 个 因子 至 少 有 3 个 因子 负载 ， 即 1 个 因子 至 少 向 
3 个 表征 变量 贡献 方差 ，@ 来 自 同一 因子 的 变量 应 该 具有 共同 的 概念 含义 ; @ 根 据 经 验 
认为 归属 不 同 因子 的 变量 衡量 了 不 同 的 内 部 结构 ，@ 旋 转 后 的 因子 能 够 呈现 简单 的 结构 
特征 。 


23.2.3 ”因子 分 析 的 具体 步骤 


在 SAS 中 PROC FACTOR 默认 执行 的 是 主 成 分 分 析 ， 若 要 执行 因子 分 析 则 要 求 用 
户 指定 PRIORS= 选项 或 用 PRIORS 语句 设置 小 于 1 的 初始 共同 度 。 比 如 下 面 的 例子 
设置 PRIORS=SMC 来 进行 因子 分 析 ， 表 示 使 用 SMC 进行 先 验 公 因子 方差 估计 《〈 见 程 
序 23-12) 。 

程序 23-12 ”执行 因子 分 析 

Proc factor data=sashelp.class priors=SMC; 


title "Factor analysis"; 
run; 


它 采 用 先 验 公 因子 方差 估计 ， 各 变量 的 方差 贡献 如 下 《〈 见 图 23-13) ， 其 总 和 正 是 
缩减 相关 矩阵 的 特征 值 总 计 2.26293856 (ILEI 23-16) 。 


缩减 相关 矩阵 的 特征 值 : 总 计 = 2.26293856 平均 值 
= 0.75431285 


特征 值 差分 比例 RR 

先 验 公 因子 方差 估计 : SMC 1| 2.38071107| 240617119 1.0520 1.0520 

Age Height ^ Weight 2| -0.02546012 0.06685227 -0.0113 1.0408 

0.66199499 | 0.82803863 | 0.77290494 3, -0.09231239 -0.0408 1.0000 
图 23-15 变量 的 SMC 方差 估计 图 23-16 ”相关 矩阵 的 特征 值 


系统 输出 的 “特征 值 ”信息 如 图 23-16 所 示 。 从 累积 方差 贡献 比例 一 列 可 以 看 
出 ， 只 需要 保留 1 个 因子 就 累计 了 1.0520 的 方差 贡献 。 也 就 是 说 ， 只 要 保留 1 个 因子 
FACTOR1， 其 方差 贡献 量 为 2.38071107， 因 子 2 和 因子 3 基本 没有 什么 贡献 ， 而 且 还 是 
负 值 。 因 子 分 析 的 特征 值 跟 主 成 分 分 析 的 特征 值 不 同 ， 它 可 出 现 负 值 ， 因 此 其 阔 值 也 通 
常 是 要 求 累计 在 1.0 即 10096 以 上 ， 而 不 是 主 成 分 分 析 方 法 中 定义 的 0.8 CHI 8096) 。 

因子 分 析 的 目的 不 仅 是 找到 公 因 子 和 对 变量 的 分 组 ， 还 在 于 探索 公 因子 的 现实 意义 
并 进行 解释 。 在 主 成 分 分 析 中 ， 每 个 主 成 分 对 应 的 系数 是 唯一 的 。 而 因子 分 析 中 每 个 因 
子 的 系数 ， 即 因子 载荷 a; 并 不 是 唯一 的 。 当 有 两 个 公 因子 以 上 时 ， 初 始 载荷 矩阵 可 以 左 
乘 一 个 正 交 和 矩阵 来 进行 所 谓 的 因子 旋转 ,目的 是 让 旋转 后 的 因子 载荷 尽 可 能 接近 0 或 1， 
就 是 让 和 矩阵 元 素 的 平方 值 向 0 和 1 进行 两 极 分 化 ， 但 旋转 后 的 公 因子 之 间 仍 然 保 持 独立 
性 。 常 用 的 旋转 方法 包括 简化 对 因子 解释 的 方差 最 大 旋转 法 VARIMAX， 简 化 对 变量 解 
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释 的 4 次 最 大 正 交 旋 转 QUARTIMAX 以 及 等 量 正 交 旋转 EAUAMAX 方法 。 在 SAS 中 ， 
可 以 通过 对 PROC FACTOR 指定 ROTATE = VARIMAX | QUARTIMAX | EQUAMAX 来 
指定 旋转 方法 ，SAS 支持 二 十 余 种 不 同 的 因子 旋转 方法 。 程 序 23-13 展示 了 因子 分 析 中 
的 指定 方差 最 大 旋转 方法 ， 由 于 SASHELPCLASS 只 有 1 个 公 因子 无 法 展示 旋转 ， 此 处 
改 用 演示 数据 SOCIOECONOMICS 进行 说 明 。 

程序 23-13 方差 最 大 旋转 进行 因子 分 析 


data SocioEconomics; 
input Population School Employment Services HouseValue; 


datalines; 
5700 12.8 2500 270 25000 
1000 10.9 600 10 10000 
3400 8.8 1000 10 9000 
3800 13.6 1700 140 25000 
4000 12.8 1600 140 25000 
8200 8.3 2600 60 12000 
1200 11.4 400 10 16000 
9100 11.5 3300 60 14000 
9900 12.5 3400 180 18000 
9600 13.7 3600 390 25000 
9600 9.6 3300 80 12000 
9400 11.4 4000 100 13000 


ods graphics on; 
proc factor data-SocioEconomics 
priors-smc msa residual 
rotate-varimax /* 方 差 最 大 旋转 ， 以 简化 对 因子 的 解释 */ 
outstat=fact all 
plots=(scree initloadings preloadings loadings); 
run; 
ods graphics off; 


23-17 为 初始 因子 模式 和 旋转 因子 模式 ， 通 过 旋转 因子 可 看 出 POPULATION 和 
EMPLOYMENT 能 够 更 好 地 被 因子 1 进行 解释 ， 而 HOUSEVALUE 和 SCHOOL 更 好 地 


被 因子 2 解释 。 
初始 因子 模式 旋转 因子 模式 
124 K Population] o 
Population Employment 
08] 
o 
0$ Employment 
044 ' o 
$ 4 Services 
$ 024 g 
8 E. HouseValue 
$ oo S "T 
2 Serien c School 
& -02] E. -02 
E E 
ibd School 
70.64 ® 
HouseValue 


-1.0-0.8 -0.6-0.4.02 0.0 02 04 0.6 08 1.0 —10-0.8 -0.6-04-02 0.0 02 04 0.6 08 1.0 
因子 1 (61.44%) 因子 1 (52.8%) 
Ca) (b) 


图 23-17 初始 因子 模式 和 旋转 因子 模式 
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图 23-18 旋转 因子 模式 中 我 们 可 看 出 变量 和 因子 之 间 的 关系 。 从 图 中 可 以 看 出 
SCHOOL fll HOUSEVALUE 受 FACTOR] 支配 比较 紧密 ， 分 别 为 0.90419 和 0.94072; 而 
POPULATION 和 EMPLOYMENT 受 FACTOR 支配 较为 紧密 , 分 别 为 0.98874 和 0.97499。 


旋转 因子 模式 
Factor! Factor2 
Population | 0.02255 0.98874 


School 0.90419 0.00055 
Employment 0.14625 0.97499 
Services 0.79085 0.41509 


HouseValue | 0.94072 -0.00004 


图 23-18 旋转 因子 模式 


根据 图 23-18 的 输出 信息 ， 它 揭示 了 观测 到 的 表征 变量 和 隐藏 因子 之 间 具 有 如 下 线 
性 关系 : 


Population = 0.02255 * Factorl + 0.98874 * Factor2; 
School = 0.90419 * Factorl + 0.00055 * Factor2; 
Employment = 0.14625 * Factorl + 0.97499 * Factor2; 
Services = 0.79085 * Factorl + 0.41509 * Factor2; 
HouseValue = 0.94072 * Factorl - 0.00004 * Factor2; 


因子 分 析 的 最 终结 果 是 为 了 计算 因子 得 分 ， 而 因子 得 分 可 当 作 自 变量 进行 进 一 
步 的 回归 和 聚 类 等 分 析 处 理 。 在 SAS 中 ， 在 PROC FACTOR 上 使 用 OUT= 选项 和 
NFACTORS- 选项 来 指定 结果 数据 集 的 名 称 和 保留 的 因子 数目 〈 见 程序 23-14) 。 


程序 23-14 输出 因子 得 分 
ods graphics on; 
proc factor data-SocioEconomics 
priors-smc msa residual 
rotate-varimax 
outstat-fact all 
out-fact out nfactors=2/* 输 出 因子 得 分 */ 
plots=(scree initloadings preloadings loadings); 
run; 
ods graphics off; 


proc print data=fact out; run; 


在 系统 输出 结果 〈( 见 图 23-19) 的 “标准 化 评分 系数 ”信息 中 ， 它 包含 了 因子 得 分 
的 系数 关系 。 


标准 化 评分 系数 
Factori Factor2 
Population -033457 0.57427 


School 0.28299 -0.05835 
Employment 025118 0.43751 
Services 0.22543 -0.02388 


HouseValue 0.49804 0.00268 


图 23-19 ”标准 化 评分 系数 
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图 23-19 标准 化 评分 系数 揭示 了 因子 得 分 和 原 变量 之 间 的 关系 : 


Factorl = -0.33457 * Population Std + 0.28299 * School Std + 0.25118 * 
Employment Std + 0.22543 * Services Std + 0.49804 * HouseValue Std 


Factor2 = 0.57427 * Population Std - 0.05835 * School Std + 0.43751 * 
Employment Std - 0.02388 * Services Std * 0.00268 * HouseValue Std 


其 中 每 一 个 自 变 量 为 原始 变量 的 标准 化 结果 , n POPULATION STD PR POPULATION 
有 如 下 关系 : 


Population Std- (Population - Population 的 均值 ) / Population 的 标准 差 


当 我 们 打印 因子 分 析 输 出 结果 进行 验证 时 ， 因 子 得 分 (FACTOR1 和 FACTOR2 列 ) 
和 原 变量 之 间 关 系 似乎 不 正确 〈 见 图 23-20) 。 根 本 原因 是 默认 打印 出 来 的 原 变量 并 没 
有 标准 化 ， 而 SAS 因子 分 析 的 因子 得 分 是 根据 标准 化 数据 计算 出 来 的 。 


Obs Population School Employment Services HouseValue Factor! Factor2 


1 5700 128 2500 270 25000| 121989 | -0.10367 
2 1000) 109 60 10 10000 | -0.69168 _ -1.44824 
3 3400 88 1000 10 9000 | -1.25502 -0.83842 
4 3800 136 1700 140 25000| 1.11451 | -0.70197 
5 4000 128 1600 140 25000| 0.94810 -0.67770 
5 8200 83 2600 GJ 12000 | -1.14455 0.53407 
7 120) "4 400 10 16000 | -0.20311 -1.49916 
g so) ns 3300 6 14000 | -0.42711 0.82738 
9 990 125 3400 180 18000 | 022197 0.94027 
10 9600 137 3600 390 25000| 144113 | 0.88080 
n 9600 96 3300 80 12000 | -0.89390 0.96791 
12 9400 114 4000 100 13000 -033023 1.11874 


图 23-20 原始 变量 与 因子 得 分 


为 此 ， 首 先 将 SOCIOECONOMICS 数据 集 标准 化 为 均值 为 0， 方 差 为 1 的 数据 ， 并 
输出 到 SOCIOECONOMICS STD 数据 集中 ， 然 后 再 使 用 SOCIOECONOMICS STD 进 
行 因子 分 析 《〈 见 程序 23-15) 并 输出 结果 ， 此 时 会 发 现 因 子 得 分 和 原 变量 之 间 的 关系 就 
跟 标 准 化 评分 系数 表 中 列 出 的 线性 关系 完全 匹配 〈 见 图 23-21) 。 这 说 明 SAS 因子 分 析 
内 部 是 使 用 标准 化 数据 进行 处 理 的 ， 它 严谨 地 消除 了 变量 量 纲 和 数量 级 的 影响 。 


程序 23-15 ”数据 标准 化 后 做 因子 分 析 


proc standard data-SocioEconomics out-SocioEconomics std mean=0 std-1; 
run; 


ods graphics on; 
proc factor data-SocioEconomics std 
priors-smc msa residual 
rotate-varimax 
outstat-fact all 
out-fact out nfactors-2 
plots-(scree initloadings preloadings loadings); 
run; 
ods graphics off; 


proc print data-fact out;run; 
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-0.15746 
-1.52374 
-0.82607 
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-0.65165 


0.56928 -1. 


-1.46560 
0.83091 
1.06347 
0.97626 
0.97626 
0.91812 
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School Employment Services HouseValue Factor! | 

| 076031 0.13428 129792 125637 12198| 

-0.30319 -1.39649 -0.96438 -1.09933 -0.69168 | 
| -1.47865 | -1.07422 | -0.96438 | -1.25637 | -1.25502 
120810 051025 016677 125637 111451 
0.76031 -059082 — 0.16677 1.25637 0.94810 
1.75852 0.21484  -0.52932 -0.78523 -1.14455 
-0.02332 -155762 -096438| -0.15705 | -0.20311 
0.03265 0.77881  -052932 -0.47114 | 0.42711 
0.59239 0.85938 0.51482 0.15705 0.22197 
1.26408 1.02051 234206 1.25637 144113 
-1.03085 0.77881 -035530| -0.78523 | -0.89390 
-0.02332 1.34277 -0.18127 -0.62819 -0.33023 

图 23-21 标准 化 数据 与 因子 得 分 
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Factor2 
-0.10367 
-1.44824 
-0.83842 
-0.70197 
-0.67770 
0.53407 
-1.49916 
0.82738 
0.94027 
0.88080 
0.96791 
1.11874 
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对 于 最 后 输出 的 因子 得 分 数据 ， 可 以 完全 可 以 用 它 代替 原来 的 5 个 变量 作 进一步 的 


数据 分 析 。 


相关 分 析 与 回归 分 析 


24.1 变量 关系 


变量 之 间 的 关系 包括 确定 性 的 函数 关系 与 非 确 定性 经 验 关系 两 种 ， 前 者 是 变量 之 间 
能 用 精确 数学 模型 进行 描述 的 确定 性 函数 关系 ， 如 产品 销售 金额 等 于 产品 销售 数量 C 乘 
以 销售 单价 P， 任 何 一 个 圆 的 面积 等 于 半径 R 的 平方 乘 以 x 值 。 后 者 则 是 大 量 实际 观测 
或 试验 中 建立 起 来 的 一 种 经 验 性 统计 关系 ， 称 为 相关 关系 〈Correlation) 。 在 现实 中 ， 
确定 性 函数 关系 和 不 确定 性 的 相关 关系 间 并 不 存在 绝对 的 鸿沟 ， 因 为 存在 确定 性 函数 关 
系 的 变量 间 ， 也 有 可 能 由 于 随机 测量 误差 或 其 他 因素 的 干扰 而 表现 为 相关 关系 ， 而 对 存 
在 相关 关系 的 变量 长 期 观测 具有 深刻 理解 后 ， 这 种 不 确定 的 相关 关系 也 可 借助 某 个 函数 

相关 关系 本 身 说 明 变 量 之 间 存 在 关联 (Association) ， 但 它们 之 间 具 体 如 何 关联 需 
要 进一步 分 析 ， 它 包括 平行 关系 和 依存 关系 两 种 。 如 果 观 测 的 变量 处 于 平等 地 位 ， 它 们 
都 是 随机 变量 ， 首 先 要 分 析 的 是 两 个 变量 之 间 是 否 存在 线性 相关 以 及 它们 相关 的 程度 ， 
采用 的 分 析 手 段 为 相关 分 析 (Correlation Analysis) 。 

如 果 变 量 之 间 已 经 确定 存在 显著 的 相关 关系 ,但 其 中 某 个 变量 的 变化 ， 在 时 间 上 依 
存 或 受 控 于 另外 某 个 或 某 些 变量 的 变化 ， 则 称 该 变量 为 因 变量 〈 也 叫 响 应 变量 ， 常 记 为 
Y) ， 而 那些 独立 变化 并 导致 因 变 量变 化 的 那些 变量 被 称 为 自 变 量 〈 也 叫 独立 变量 ， 常 
记 为 五 )。 自 变量 天 可 以 解释 并 预测 因 变量 了 的 变化 ， 这 时 需要 采取 的 数据 分 析 手 段 为 
回归 分 析 (Regression Analysis) 。 回 归 分 析 目 的 是 利用 观测 到 的 数据 试图 建立 变量 之 间 
的 经 验 公式 ， 以 实现 用 自 变 量 来 解释 并 预测 因 变量 的 目的 ， 说 明 自 变量 和 因 变 量 之 间 存 
在 依存 关系 。 

举 个 具体 的 例子 ， 清 晨 日 出 与 公鸡 打 鸣 这 两 种 现象 每 天 都 发 生 ， 而 且 公鸡 打 鸣 可 能 
发 生 在 凌晨 4-5 点 钟 ， 时 间 上 可 能 与 日 出 同时 ， 甚 至 更 早 一 点 。 人 们 注意 到 这 两 种 现象 
存在 某 种 关联 ， 但 这 两 种 现象 之 间 存 在 的 是 平行 的 关联 关系 ， 并 非 因 为 公鸡 打 鸣 才 导 致 
太阳 公公 起 床 来 照 炮 大 地 。 如 我 们 去 健身 俱乐部 运动 ， 运 动 所 消耗 的 氧气 跟 运动 量 是 存 
在 依存 关系 的 , 运动 时 间 越 长 , 运动 量 越 大 则 一 定 会 导致 身体 所 消耗 的 氧气 量 增 大 , 此 时 ， 
耗 氧 量 的 大 小 是 依赖 于 运动 量 的 变化 而 存在 的 ， 因 此 它们 之 间 就 存在 依存 关系 。 

相关 分 析 和 回归 分 析 存在 紧密 的 联系 ， 相 关 分 析 是 回归 分 析 的 基础 和 前 提 ， 回 归 分 
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析 是 相关 分 析 的 深入 和 继续 。 只 有 进行 相关 分 析 后 证 明了 变量 之 闻 存 在 显著 的 相关 程度 ， 
才 有 进一步 做 回归 分 析 的 必要 ， 否 则 也 没有 什么 意义 。 回 归 分 析 试 图 探 明 变量 之 间 的 相 
关 具 体 是 何 种 表现 形式 ， 各 个 自 变量 是 如 何 控制 因 变 量 的 观测 值 。 回 归 分 析 的 结果 会 建 
立 一 个 回归 模型 ， 利 用 该 模型 可 以 对 因 变 量 进 行 预测 和 评估 。 

相关 关系 中 如 果 一 个 变量 的 变化 伴随 着 另 一 个 变量 大 致 均匀 的 变动 ， 我 们 称 两 者 是 
线性 相关 ; 相反， 如 果 一 个 变量 伴随 着 另 一 变量 的 变化 产生 不 均匀 的 变动 ， 此 时 两 者 关 
系 的 投影 图 往往 表现 为 各 种 曲线 形式 ， 则 称 变量 之 间 为 非 线 性 相关 。 根 据 研究 的 变量 数 
目 ， 如 果 仅 涉及 两 个 变量 之 间 的 相关 ， 称 为 简单 相关 ; 如 果 某 个 变量 的 变化 与 两 个 以 上 
的 其 他 变量 的 变化 相关 ， 称 为 复 相关 ; 当 某 个 变量 的 变化 与 若干 其 他 变量 的 变化 相关 时 ， 
为 了 研究 该 变量 与 其 中 某 个 自 变量 的 相关 性 ， 我 们 需要 殊 除 其 他 变量 的 影响 再 研究 它们 
之 间 的 相关 性 ， 这 种 相关 分 析 称 为 偏 相关 分 析 。 


24.2 相关 分 析 


24.2.1 线性 相关 性 度量 


为 了 衡量 变量 之 间 的 相关 性 ， 统 计 学 家 们 引入 多 种 衡量 相关 性 的 度量 ， 不 同 的 度量 
可 用 于 不 同 测量 尺度 下 的 观测 变量 。 

如 果 两 个 连续 变量 服从 正 态 分 布 ， 此 时 基于 数据 可 以 计算 出 协 方差 和 标准 差 ， 此 时 
衡量 变量 之 间 线 性 相关 性 最 常用 的 度量 为 皮尔 逊 积 矩 相关 系数 (Pearson Product Moment 
Correlation， 简 称 皮 尔 逊 相关 系数 ， 国 内 也 称 皮尔 逊 积 差 相关 系数 ) 。 基 于 样本 计算 出 
来 的 相关 系数 用 + 表示， 而 总 体 的 相关 系数 则 用 p 表示 。 其 计算 公式 如 下 : 

E Sy — 220 -3Y08-» 
$8, 43,0 -x» 430. -»» 

RP: gw JZE x My 的 协 方差 ，6. 和 2 分 别 为 变量 x M y 的 标准 差 。 对 于 标准 
化 数据 ， 由 于 其 均值 为 0， 方差 为 1 ( 即 分 母 为 1) ， 此 时 相关 系数 等 价 于 协 方差 系数 。 
皮尔 逊 相关 系数 也 可 由 如 下 公式 计算 : 

e. DAA DSA 
Er -Ea -OY 

皮尔 逊 相关 系数 > 取 值 在 -1 到 1 之 间 ， 其 绝对 值 |r| 越 靠近 1 表示 相关 性 越 强 ， 越 
靠近 0 表示 相关 性 越 弱 ， 符 号 为 正 表示 两 者 是 正 相关 ， 符 号 为 负 表 示人 负 相 关 。 如 果 王 1 
表示 完全 正 相 关 ， 如 果 一 -1 表示 完全 负 相 关 ，:=0 则 表示 两 者 没有 相关 性 。 如 果 把 变量 
观测 值 看 作 是 一 个 向 量 ， 即 2 则 皮尔 逊 相关 系数 等 价 
于 向 量 卫 和 了 中 心 化 后 的 向 量 夹 角 余弦 值 ， 即 中 心 化 向 量 的 余弦 相似 度 Cos < X, Y >= 
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X- Y [qx |» Y) 等 于 两 个 向 量 的 内 积 除 以 两 个 向 量 模 的 乘积 。 

当 我 们 得 到 皮尔 还 相关 系数 r+ 后， 不 能 因为 它 的 绝对 值 靠 近 1 就 认为 两 个 变量 之 间 
存在 很 强 的 线性 相关 关系 ， 而 应 做 必要 的 检验 。 皮 尔 逊 相关 系数 的 概率 值 服从 自由 度 为 
n-2 的 1 分 布 

EN t-32) 

因此 ， 我 们 可 以 对 线性 相关 系数 r+ 根据 其 概率 值 作 t 检 验 ， 另 外 一 种 方法 也 可 以 直 
接 查 “ 积 差 相关 系数 临界 值 表 ”。 

CD 对 线性 相关 系数 + 作 + 检 验 的 零 假设 M 为 p=0， 即 变量 之 间 不 相关 。 而 备 择 
假设 蕊 为 p 关 0， 即 变量 之 间 相 关 。 对 于 上 面 的 统计 量 :， 由 于 它 服从 给 定 显著 性 水 平 
a 下 自由 度 为 n-2 的 分布。 因此 如 果 根据 样本 计算 出 来 的 统计 量 |r|>>t,(n 一 2)， 我 们 
就 有 理由 拒绝 零 假设 有 思 ， 认 为 变量 之 间 存 在 线性 相关 性 ;否则 应 接受 零 假设 Ho. ME 
特别 注意 的 一 点 是 这 里 应 该 采用 双 侧 检验 ， 因 此 使 用 7 (n -2)。 

(2) 如 果 直 接 查 积 差 相 关系 数 临 界 值 表 ， 只 要 根据 样本 数据 计算 出 来 的 线性 相关 
系数 + 的 绝对 值 | e | 大 于 临界 值 表 中 给 定 显著 性 水 平 a=0.05 和 自由 度 dfn-2 下 积 差 相关 
系数 临界 值 ， 即 可 认为 变量 之 间 的 相关 性 是 显著 的 。 如 果 | e | 大 于 临界 值 表 中 显著 性 水 
平 a=0.01 和 自由 度 df-n-2 的 临界 值 ， 则 认为 其 相关 性 是 非常 显著 的 。 

另外 还 需要 注意 ， 考 察 变量 之 间 的 线性 相关 不 仅仅 要 看 |r | 值 本 身 ， 还 应 该 考虑 样 
本 容量 n 的 大 小 。 原 因 是 当 样 本 容量 较 小 时 计算 出 来 的 |r| 值 容易 偏 大 ， 而 样本 容量 较 
大 时 算出 的 |r| 又 容易 偏 小 (这 一 点 从 临界 值 表 的 分 布 中 也 可 以 直接 看 出 ) ， 因 此 仅 凭 
线性 相关 系数 | e | 来 判断 变量 之 间 线 性 相关 的 密切 程度 是 不 恰当 的 。 我 们 需要 结合 样本 
容量 n 进行 考虑 ， 避 免 因为 样本 量 n 较 小 没有 足够 判定 性 而 错误 地 以 为 变量 之 间 存 在 密 
切 的 线性 相关 性 。 

线性 相关 系数 + 的 平方 声称 为 判定 系数 尺 方 ， 虽 然 由 于 平方 运算 后 变 为 正 数 ， 不 再 
能 衡量 相关 性 的 方向 〈 正 相关 / 负 相 关 ) ， 但 它 取 值 在 0 过 天 入 1 之 间 ， 往往 在 回归 分 
析 中 用 来 衡量 变量 总 离 差 的 平方 和 。 判 定 系数 尺 方 的 取 值 越 大 表明 回归 模型 拟 合 程度 越 
好 ， 在 理论 上 判定 系数 尺 方 反映 了 回归 模型 中 因 变 量 的 变化 有 多 少 是 由 模型 中 的 自 变 量 
所 引起 的 ， 从 而 可 以 衡量 回归 模型 的 有 效 性 。 


24.2.2” 非 参数 关联 度量 


对 于 分 类 型 数据 ， 由 于 它 是 类 别 数据 不 能 直接 计算 协 方差 和 标准 差 ， 此 时 也 就 无 法 直 
接 计算 皮尔 逊 相关 系数 。 根 据 非 参数 统计 的 思想 ， 我 们 需要 把 类 别 数据 根据 等 级 进行 排 
序 ， 也 就 是 说 用 它们 的 秩 (Rank) 来 代表 类 别 变量 值 进行 相关 分 析 ， 这 种 以 秩 为 基础 计 
算 的 相关 系数 称 为 等 级 相关 系数 或 秩 相关 系数 。 等 级 相关 系数 以 定 序 变量 之 间 的 顺序 
而 不 是 其 数值 的 大 小 为 基础 ， 利 用 皮尔 逊 相 关系 数 计算 公式 即 可 求 得 等 级 相关 系数 。 

常用 的 非 参数 关联 度量 包括 斯 皮尔 曼 秩 相关 系数 、 肯 德尔 Tau-b 系数 以 及 霍 夫 丁 D 


$242 相关 分 析 与 回归 分 析 EEE 天王 


统计 量 。 

COD 斯 皮尔 曼 秩 相关 系数 (Spearman Rank-Order Correlation). 用 于 衡量 两 个 定 序 变 
量 之 间 的 相关 程度 。 斯 皮尔 曼 秩 相关 系数 是 分 布 无 关 的 相关 性 度量 ， 它 跟 皮 尔 逊 相关 
系数 要 求 数据 服从 正 态 分 布 的 前 提 不 同 ， 它 不 需要 这 一 前 提 ， 因 此 具有 更 加 广泛 的 使 
用 领域 。 

RCR 而) 

ER -RY SE, R -EY 

式 中 : Rs 和 RR; 分 别 表示 变量 x 和 yy 第 i 观测 值 所 对 应 的 秩 。 斯 皮尔 曼 秩 相关 系数 
的 概率 跟 皮 尔 逊 相关 系数 一 样 服从 对 应 1- 分 布 : 

Er 

因此 也 可 以 对 秩 相关 系数 x, 作 同样 的 检验 , 也 可 以 查 “ 秩 相关 系数 检验 的 临界 值 表 ” 
进行 检验 。 比 如 给 定 显著 性 水 平 a=0.05， 如 果 计 算得 到 的 斯 皮尔 曼 秩 相关 系数 大 于 等 于 
查 表 所 得 的 数值 ， 则 认为 有 95% 的 置信 度 认为 两 个 变量 相关 ; 如 果 a=0.01 MA 99% 的 
置信 度 认为 两 个 变量 显著 相关 。 有 的 教材 也 使 用 如 下 公式 计算 斯 皮尔 曼 秩 相关 系数 。 
E 65 (R, - R,) 

n(n —1) 

AP: RR 表示 两 个 定 序 变量 对 应 的 秩 次 差 。 

(2) 肯 德 尔 Tau-b 系数 (Kendall tau-b Coefficients) 又 称 肯 德尔 和 谐 系数 ， 是 基于 
配对 观测 变化 的 一 致 和 非 一 致 的 次 数 ， 以 衡量 变量 关联 的 非 参数 度量 。 当 配对 观测 中 变 
量变 化 方向 ( 增 大 或 减 小 ) 一 致 时 称 为 一 致 性 ， 否 则 配对 观测 变化 方向 不 同 〈 其 中 一 个 
增 大 另 一 个 减 小 ) 时 称 为 不 一 致 性 。 它 常用 于 计算 多 个 定 序 变量 之 间 的 相关 程度 ， 其 计 
算 公 式 如 下 : 


n-l 


C-D | Èg Genes - x)sen(, - y,)) 
J4m-1m-1z) Jq-mm-n 

公式 中 的 分 子 CD 实际 是 计算 拥有 一 致 性 的 元 素 对 的 数量 C 减 去 拥有 不 一 致 性 的 
元 素 对 的 数量 D， 其 简捷 计算 方法 为 统计 符号 乘积 的 计数 ， 公 式 中 sen) 取 符号 函数 取 
值 为 CL 0, D TD, i7 Xia -0/2:1 1 - Yos -D/2, ,与 样本 
容量 有 关 ， 而 T. nAIRE Ay 有 关 。 比 如 计算 TS CHEKKA x 中 所 有 相同 
元 素 归 类 形成 s 个 子 集 (没有 相同 元 素 则 不 形成 子 集 ) ， 表示 的 是 第 个 子 集 中 所 包 
含 的 相同 元 素 的 个 数 。Z 与 T, 类 似 但 基于 变量 y 进行 计算 。 

比如 变量 zx 和 ? 都 有 ?个 观测 ， 则 第 ;个 观测 可 用 Gs, y) 表示 ， 当 任意 两 个 观测 Gs, 
y) Hl y). WR x Hy <y RE x >x Hy >y 则 认为 这 两 个 元 素 的 变化 是 
LAR TED x cx By y Sx mx Hs xs 则 认为 这 两 个 元 素 的 变化 是 
不 一 致 的 。 若 xi= 区 或 六 = 芒 ， 则 认为 这 两 个 元 素 既 不 是 一 致 ， 也 不 是 不 一 致 。 

下 面 以 例子 〈 见 图 24-1) 说 明 如 何 计算 肯 德尔 Taub 系数 ， 对 于 5 个 观测 的 样本 ， 
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可 形成 10 个 观测 对 ， 两 个 变量 之 间 形 成 了 一 个 上 三 角 和 下 三 角 对 称 的 矩阵 ， 算 阵 元 素 
反映 两 个 变量 的 增 减 变化 方向 是 否 一 致 。 


Y 
5 
2 
1 
4 
3 


24-1 ”计算 肯 德 尔 Tau-b 系数 
表 中 有 4 个 一 致 和 6 个 不 一 致 ， 而 Ti 和 为 零 ， 代 入 计算 公式 可 得 
Y. [sent —xj)sgnCy, — 功 ] zu 


t JOE-T- 0 


当 变 量 工 和 变量 了 各 个 元 素 都 是 唯一 时 ， 即 不 存在 相同 值 时 ， 肯 德尔 系数 Tau-b 可 
以 简化 如 下 : 


C-D 
AD712 
AP: C、DD 分别 为 拥有 一 致 性 的 元 素 对 的 数目 和 不 一 致 的 元 素 对 的 数目 ， 且 此 时 
前 面 公式 中 的 五 和 有 均 为 零 。 
另外 ， 肯 德尔 Tau-b 系数 也 可 由 如 下 公式 计算 出 来 ， 其 中 表示 等 级 换 位 总 次 数 : 


-— 4Yi 
n(n—1) 
如 果 使 用 几何 图 示 表 示 〈 见 图 24-2) ， 等 级 换 位 次 数 Di 实际 上 就 是 它们 排列 连 线 
的 交点 数目 。 
1 5 
2 2 
3 1 
4 4 
5 3 


24-2 ”基于 换 位 次 数 计算 肯 德 尔 Tau-b 系数 
4J i EM 4x6 


n(n—1) 5(5-1) 
肯 德 尔 Tau-b 系数 的 概率 计算 公式 比较 复杂 , 且 肯 德尔 偏 Tau-b 的 采样 分 布 不 可 知 。 
G) SEXT D 统计 量 (Hoeffding's measure of dependence) 是 用 于 检测 对 独立 性 更 一 
般 的 偏离 ， 它 也 是 衡量 变量 关联 的 非 参数 度量 ， 近 似 于 对 2X2 分 类 表 的 卡 方 统计 量 观 
测 的 加 权 总 和 ， 每 组 值 都 是 类 别 的 分 割 点 。 其 计算 公式 如 下 : 
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0 (n—2)(n - 3)D, + D, - 2(n - 2)D, 

n(n — Vn —2)(n -3)(n —- 4) 

AP: D-Y(QQ-D(Qr-D. DYR DR DR)R 2), DAR 2R r271), 
其 中 R; M RR; 分 别 表 示 变 量 x M y, HERR: O 为 双 变 量 等 级 ， 表 示 x 和 >? 的 值 都 小 
于 第 i 个 点 的 元 素 个 数 加 1。 

如 果 只 有 一 个 值 (x 或 y) 相关 且 小 于 第 i 个 值 ， 则 该 观测 贡献 1/2 到 8;。 如 果 两 个 
变量 x 和 y 都 相关 ， 则 贡献 1/4 到 0;。 计 算 时 一 般 先 排序 来 获得 2， 然 后 再 按 先 后 变量 
对 x 和 yy 进行 排序 计算 。 霍 夫 丁 DD 统计 量 基于 第 一 个 变量 的 交换 次 数 来 计算 。 

当 数 据 集 的 观测 之 间 不 存在 联系 时 ，D 统计 量 介 于 -0.5 到 1 之 间 ，1 表示 完全 依赖 。 
当 观 测 之 间 存 在 联系 时 ，D 统计 量 可 能 会 导致 较 小 的 数值 。 也 就 是 说 一 对 变量 具有 相同 
值 时 霍 夫 丁 D 统计 量 可 能 小 于 1。 当 一 个 小 的 数据 集中 存在 大 量 联系 时 ，D 统计 量 可 能 
小 于 -0.5。 

霍 夫 丁 D 统计 量 的 概率 值 可 使 用 Blum, Kiefer 和 Rosenblatt (1961) 的 渐进 分 布 进行 
计算 〈 其 计算 公式 如 下 ) ， 而 当 样本 数 小 于 10 时 需要 查 霍 夫 丁 D 分 布 表 。 


(n-Dz* y 7t 


60 72 


5-3 


24.2.3 ”定量 数据 的 相关 分 析 


在 SAS 中 主要 以 PROC CORR 进行 相关 分 析 〈 见 程序 24-1) ， 默 认 使 用 皮尔 逊 相 
关系 数 进行 计算 : 


程序 24-1， 基 于 皮尔 逊 相关 系数 的 相关 分 析 

proc corr data-sashelp.class; 
var age weight height; 

run; 


此 时 系统 输出 如 下 《〈 见 图 24-3). 


SAS 系统 
CORR i 


3 变量 - Age Weight Height 


Bewa 

$R N 228 标准 莽 LIES E 
Age  |19 1331579 1.49267 25300000 11.00000 1600000 S8? 
Weight 19 10002632 2277393 1901 5050000 150.00000 体重 (3) 
Height 19 6233684 5.12708 1184 51.3000 7200000 E (E) 

Pearson HRB, N = 19 

Prob > Ir under Hò: Rho-0 

Age Weight Height 


Age 1.00000 074086 081143 
E 0.0003 «0.0001 
Weight 074089 100000 087779 
体重 (GE) | 0000 «0.0001 


Height. 0.81143 087779 1.00000 
S£ (要 十) |<0.0001 <0.0001 


图 24-3 ”皮尔 逊 相关 系数 
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从 图 24-3 的 第 3 个 表格 (皮尔 逊 相关 系数 ) 中 可 以 看 出 ， 变 量 Age 和 变量 
Weight. Height 之 间 的 相关 系数 分 别 为 0.74089 和 0.811143， 变 量 Weight 和 变量 
Height 之 间 的 相关 系数 为 0.87779。 其 中 上 统计 检验 的 结果 显示 其 P- 值 分 别 为 0.003， 
<0.0001 和 <0.0001， 它 们 都 小 于 0.01， 说 明 它 们 之 间 的 相关 性 是 十 分 显著 的 ， 其 中 
Weight 和 Height 之 间 的 相关 性 0.87779 最 强 。 我 们 可 以 用 自由 度 df-19-2, 4—-0.05 直 
接 查 “ 积 差 相关 系数 界 值 表 ” 得 到 的 相关 系数 临界 值 为 0.456， 而 0.87779 > 0.456 说 


明 两 者 显著 相关 ; 进一步 查 4f =19 一 2, 4=0.01， 得 到 临界 值 0.575，0.87779 依然 大 于 
0.575 说 明 两 者 关系 确实 十 分 显著 。 

如 果 希 望 自己 写 程序 进行 + 检验 ， 可 以 使 用 下 面 的 程序 〈 见 程序 24-2) 进行 。 实 际 
上 SAS 还 提供 各 种 统计 分 布 的 自动 查 表 功 能 。 


程序 24-2 F t 检验 
data null ; 
r-0.87779 ; n-19; 


t- sqrt(n-2)* r /sqgrt(l-r*r); 
put "统计 量 t=" t; 


df-n-2; 

alpha-0.05; 

t 005-TINV(1-alpha/2, df); 

put " 查 表 t( " df ")a/2-" t 005 " a=" alpha; 


alpha-0.01; 
t 001-TINV(l-alpha/2, df); 
put "Zt t( " df ")a/2-" t 001 " a=" alpha; 


if t » t 001 then do; 
put "结论 拒绝 H0: p-0; Hl: p<>0. 即 在 显著 性 水 平 ”alpha "下 变量 相关 性 非常 显著 ! "; 
end; 
else do; 
if t » t 005 then do; 
put "结论 拒绝 H0: p-0; H1: p<>0. 即 在 显著 性 水 平 " alpha "下 变量 相关 性 显著 ! "; 


end; 
else do; 
put "结论 接受 H0: p-0; H1: p<>0. 即 变量 之 间 没 有 相关 关系 ! "; 
end; 
end; 
run; 


当 需 要 使 用 其 他 的 相关 性 度量 时 ， 可 以 指定 PROC CORR 的 选项 PEARSON, 
SPEARMAN, KENDALL 和 HOEFFDING， 也 可 以 指定 PLOTS-MATRIX(HISTOGRAM) 
来 输出 投影 图 和 直方 图 以 方便 查看 各 变量 之 间 的 关系 。 其 代码 如 程序 24-3 所 示 。 

程序 24-3 ”输出 变量 间 的 相关 性 度量 

Proc corr data=sashelp.class PEARSON SPEARMAN KENDALL HOEFFDING 

plots=matrix (histogram); 


var age weight height; 
run; 


除了 前 面 已 经 显示 的 简单 统计 量 ，SAS 系统 还 会 输出 如 下 信息 〈 见 图 24-4) ， 分 别 
用 于 输出 斯 皮尔 曼 相 关系 数 、 肯 德尔 Tau-b 相关 系数 以 及 霍 夫 丁 D 统计 量 。 各 种 秩 相 关 
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系数 都 指示 变量 Weight 和 变量 Height 之 间 存 在 较 强 的 相关 关系 。 


FT 相关 系数 , N= 19 Kendall Tau b 相关 系数 , N = 19 Hoeffding RAKSA, N = 19 
Prob > il under HO- Rho-0 Prob > htaul under H0: Tau-0 Prob > D under H0: D-0 
Age Weight Height Age Weight Height Age Weight Height 
Age 1.00000 0.72536 0.76906 Age 1.00000 yi 0.62604 Age 0.60218 0.20579 0.18856 
E 0.0004 0.0001 Ed 0.0004 E «0.0001 0.0003 0.0006 
Weight. 0.72536 1.00000 0.85576 Weight. 0.61692 1.00000 071430 Weight 0.20579 0.92646 0.31609 
EG 0.0004 «0.0001 ftm om) 0.0006 «0.0001 体重 (E) 0.0003 «0.0001 «0.0001 
Height 0.76906 0.85576 1.00000 Height 0.62604 0.71430 1.00000 Height 0.18856 0.31609 0.96172 
ES GE) | 0000! «00001 身高 (XU) 00004 «00001 S€ (X) 00006 «0.0001 «0.0001 


24-4 3 种 相关 性 度量 


系统 输出 的 散 点 图 矩阵 〈 见 图 24-5) 可 以 直观 地 呈现 变量 间 的 相关 性 。 其 中 第 2 HE 
第 3 列 的 散 点 图 可 以 看 出 ， 它 反映 Weight 和 Height 之 间 确 实 存在 较 好 的 相关 性 。 


散 点 图 矩阵 

Age Weight Height 
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24.04 ”类 别 数据 的 相关 分 析 


对 于 类 别 数据 ， 如 所 有 变量 都 是 文本 数据 ， 该 如 何 进行 相关 分 析 呢 ”比如 对 于 下 面 
的 例子 〈 见 程序 24-4 及 其 输出 图 24-6) ， 该 如 何 分 析 员 工学 历 和 绩效 之 间 的 相关 性 呢 ? 


data mydata; 
input name $ degree $ capacity 5; 
label name-"$t£" degree-"5S/5" capacity=" 绩 效 "; 
datalines; 
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孙 八 专科 较 差 

run; 

Proc print data=mydata label; 
run; 


钱 七 | 专科 | 一般 
孙 八 专科 RE 


图 24-6 ”类 别 数 据 
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首先 需要 把 文本 数据 进行 人 为 排序 来 获得 对 应 的 秩 ， 然 后 再 根据 秩 做 进一步 分 析 。 
此 时 我 们 需要 用 到 自 定义 输出 格式 来 进行 数据 转换 ( 见 程序 24-5) 。 


程序 24-5 利用 自 定义 格式 生成 秩 数 据 
Proc format library=work; 
value $degree ' 硕 士 '=1 ' 本 科 '=2 ' 专 科 '=3;， 
value $capacity ' 优 秀 '=1 ' 良 好 '=2 ' 一 般 '=3 ' 较 差 '=4; 


run; 


data mydata_rank;/* 生 成 秩 数 据 */ 
set mydata; 


length degree rank capacity rank 8; 

label degree_rank=" 学 历 排名 " capacity_rank=" 绩 效 排名 "; 
degree rank=put (degree, $degree.); 

capacity rank-put(capacity, $capacity.); 


run; 
proc print data-mydata rank label; 
run; 


得 到 结果 如 图 24-7 所 示 。 


"t 专科 | 一般 
孙 八 专科 RE 


图 24-7 生成 自 定义 秩 数 据 


l 
M 


2h 
ES 


这 样 我 们 就 可 以 利用 斯 皮尔 曼 系数 进行 分 析 ( 见 程序 24-6) , 3 
下 ( 见 图 24-8〉。 


该 代码 的 结果 如 
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程序 24-6 Spearman 相关 系数 

Proc corr data=mydata rank SPEARMAN; 
var degree rank capacity rank; 

run; 


Spearman 相关 系数 , N = 6 
Prob > İr] under HO: Rho=0 


degree_rank capacity_rank 


degree_rank 1.00000 0.43082 
学 历 排名 0.3938 
capacity_rank 0.43082 1.00000 
绩效 排名 0.3938 


图 24-8 Spearman 相关 系数 


由 于 类 别 变量 degree 和 capacity 之 间 的 斯 皮尔 曼 相关 系数 为 0.43082, ELE P- 1H 
0.3938 大 于 0.05， 因 此 需要 接受 原 假设 ， 即 两 个 变量 之 间 的 相关 性 不 显著 。 

如 果 待 分 析 的 变量 是 量化 变量 ， 而 不 是 类 别 变量 ， 但 如 果 只 关注 其 排名 而 不 是 数值 
本 身 ， 则 可 以 使 用 斯 皮尔 曼 Spearman 相关 系数 进行 分 析 ， 也 可 以 调用 PROC RANK if 
算 各 观测 在 变量 内 的 排名 ， 然 后 再 使 用 标准 的 皮尔 逊 相关 系数 进行 相关 分 析 。 实 际 上 ， 
下 面 的 代码 运行 结果 是 等 价 的 〈 见 程序 24-7) o 


程序 24-7 Spearman 相关 系数 

Proc corr data=sashelp.class spearman; 
var age weight height ; 

run; 


等 价 于 如 下 程序 24-8: 


程序 24-8 ”生成 秩 然后 计算 皮尔 逊 相关 系数 
proc rank data-sashelp.class out-class rank; 
var age weight height ; 
ranks age rank weight rank height rank; 
run; 
proc corr data-class rank ; 
var age rank weight rank height rank; 
run; 


对 于 肯 德 尔 Tau-b 系数 和 霍 夫 丁 D 统计 量 ， 使 用 方法 都 很 简单 。 比 如 “ 非 参数 关联 
度量 ” 一 节 中 计算 肯 德 尔 Tau-b 系数 的 例子 可 用 如 下 SAS 代码 〈 见 程序 24-9) 实现， 
结果 显示 变量 x.y 之 间 相 的 肯 德 尔 Tau-b 系数 为 -0.20000。 


程序 24-9 肯 德 尔 Tau-b 系数 
data mydata; 
input x y 86; 
datalines; 


run; 

proc corr data-mydata kendall; 
var x y; 

run; 
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24.3 回归 分 析 


如 果 在 相关 分 析 后 发 现 变量 之 间 存 在 非常 显著 的 相关 关系 ， 则 可 以 使 用 回归 分 析 做 
进一步 的 分 析 处 理 。 下 面 以 SASHELPCLASS 为 例 演示 如 何 进行 回归 分 析 。 

基于 相关 分 析 的 内 容 ， 我 们 已 经 知道 Weight 和 Height 之 间 存 在 十 分 显著 的 相关 性 
(R=0.87779, P<0.0001) 。 首 先 可 使 用 PROC SGPLOT 或 PROC GPLOT 绘制 散 点 图 检 
查 样本 数据 在 两 个 变量 空间 上 的 分 布 情况 , 其 代码 见 程序 24-10 和 程序 24-11 所 示 ， 输 出 
结果 如 图 24-9 所 示 。 

程序 24-10 cPLoT 绘制 散 点 图 

proc gplot data-sashelp.class; 

title " 散 点 图 "7 


plot weight*height ; 
run; 


或 


程序 24-11 SGPLOT 绘制 散 点 图 

Proc sgplot data=sashelp.class; 
title "Kam"; 
scatter x=height y=weight; 


run; 
散 点 图 
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图 24-9 变量 空间 的 散 点 图 


其 散 点 分 布 特征 揭示 变量 之 间 存 在 较 强 的 相关 性 ， 但 它 并 不 能 说 明 到 底 是 体重 依赖 
于 身高 ， 还 是 身高 依赖 于 体重 ， 变 量 之 间 的 依存 关系 是 需要 根据 实际 情况 进行 回归 建 模 。 
在 建 模 时 确立 目标 响应 变量 是 进行 有 监督 数据 分 析 的 第 一 步 。 比 如 ， 已 知 班级 中 学 生 
的 身高 ， 是 否 能 很 好 地 预测 他 们 的 体重 ? 我 们 试图 建立 体重 关于 身高 的 函数 ， 可 使 用 
PROC REG 的 MODEL 语句 来 指定 需要 拟 合 的 回归 模型 。 目 标 是 建立 线性 回归 方程 
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Weight = A,f*Height ， 即 变量 Weight 关于 变量 Height 的 函数 〈 见 程序 24-12) 。 


程序 24-12 PROC REG 回归 分 析 
proc reg data-sashelp.class; 
title "回归 分 析 "; 
model Weight=Height; 
run; 
quit; 


运行 后 系统 输出 如 图 24-10 所 示 。 


方差 分 析 
源 自由 度 平方 和 SA F 值 Pr>F 
模型 1 7193.24912 7193.24912 57.08 «0.0001 
误差 17 | 2142.48772  126.02869 
校正 合计 18 9335.73684 


均 方 根 误 差 11.22625 R 方 0.7705 
因 变 最 均值 100.02632 W R 方 0.7570 
变异 系数 11.22330 


图 24-10 检查 方差 分 析 结 果 


该 输出 结果 的 方差 分 析 部 分 显示 ， 模 型 自由 度 为 模型 参数 个 数 减 去 1， 简 单线 性 回 
归 模型 只 有 两 个 参数 房 和 房 ， 因 此 自由 度 为 1。 而 校正 的 总 体 自由 度 则 等 于 数据 集中 的 
观测 数 减 1， 即 19-1=18。 表 中 还 可 以 看 出 模型 的 回归 离 差 平方 和 (SSR) 为 7193.24912， 
而 残 差 平方 和 (SSE) 为 2142.48772， 它 们 除 以 各 自 的 自由 度 1 和 17 得 到 各 自 的 均 方 
差 7193.24912 和 126.02869。 有 了 模型 和 误差 的 均 方差 就 可 以 做 F 检验 ,其 中 F 统 计量 
等 于 模型 均 方差 / 误差 的 均 方 差 ， 即 F=7193.24912/126.02869=57.08， 其 对 应 的 书 值 
«0.0001 显示 回归 模型 的 F 统计 量 非常 显著 ， 表 明 回归 模型 的 解释 能 力 非常 显著 ， 模 型 
总 体 上 能 对 数据 变异 的 绝 大 部 分 进行 解释 。 

该 输出 结果 中 的 均 方 根 误 差 (Root MSE) 值 是 误差 项 标准 差 的 估计 值 ， 由 于 误差 项 
总 体 标准 差 不 可 知 ， 要 用 样本 估计 量 5S, 代替 。 它 是 实际 观测 值 y 与 回归 估计 值 》 离 差 平 
方 和 的 均 方 根 ， 反 映 实际 观测 值 在 回归 直线 周围 的 分 散 状况 ， 也 反映 回归 直线 的 拟 合 程 
度 。 其 计算 公式 为 


mE w- E Y; DARD v -ÂE xN 
n-2 E: 
计算 得 到 S,=11.22625， ———————— 
现形 式 。 
图 24-10 中 的 R 方 和 调整 R 方 是 两 个 用 来 衡量 模型 拟 合 程度 的 统计 量 ， 越 接近 1 
表示 拟 合 越 好 。 拟 合 优 度 系数 R 方 也 称 判定 系数 ， 它 的 值 表示 自 变量 Height 解释 了 
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77.05% 的 因 变 量 Weight 的 变异 。 

实际 上 ， 数 学 上 已 经 证 明 判 定 系数 R 方 等 价 于 变量 之 间 的 相关 皮尔 逊 相关 系数 r 的 
平方 : 从 前 面相 关 分 析 时 已 经 知道 变量 Weight 和 变量 Height 之 间 的 皮尔 逊 相关 系数 为 
0.87779， 其 平方 0.87779X0.87779 刚好 等 于 回归 分 析 拟 合 优 度 系数 R 方 。 它 反映 回归 
分 析 中 样本 观测 值 聚 集 在 样本 回归 直线 周围 的 紧密 程度 ， 同 时 也 度量 了 回归 模型 能 解释 
回归 离 差 平方 和 SSR 在 总 离 差 平方 和 SST 中 所 占 的 比例 ， 即 及 方 -SSR/SST-7391.2491 
2/9335.73684=0.7705。 然 而 , 实践 中 及 方 的 计算 不 能 代替 回归 方程 总 体 线性 关系 的 F 检 验 ， 
因此 下 检验 总 是 必要 的 。 

分 析 结 果 的 参数 估计 表 〈 见 图 24-11〉 显 示 了 回归 模型 的 参数 估计 结果 ， 第 1 行 和 第 2 
行 分 别 列 出 了 房 和 后 的 参数 估计 以 及 对 应 的 标准 误差 、 检 验 每 个 参数 〔 房 和 羽 ) 是 否 


显著 的 t 统 计量 及 相应 的 P- 值 。 对 回归 系数 房 和 房 的 显著 性 寺 检 验 结果 P- 值 分 别 为 
0.0004 和 二 0.001 表明 两 个 参数 都 非常 显著 。 


参数 估计 
参数 标准 
E: 标签 自由 度 估计 误差 t 值 Pr» du 
Intercept | Intercept 1 -143.02692 3227459 -4.43 0.0004 
Height — 身高 (英寸) 1 3.89903 0.51609 7.55 «0.0001 


图 24-11 参数 估计 


在 线性 回归 分 析 中 ， 利 用 已 经 观测 到 的 样本 数据 如 何 计算 截 距 (Intercept) B, 
ZR (Slope) 的 数学 方法 是 普通 最 小 二 乘法 COrdinaryLeast Square Estimation) ， 其 核 
心思 想 是 寻找 截 距 和 和 斜率 参数 的 估计 值 ， 使 误差 项 的 平方 和 《【 残 差 ) 达到 最 小 。 比 如 上 面 
一 元 线性 回归 方程 的 两 个 参数 可 由 样本 数据 计算 得 到 ， 其 中 = 了 >"*/m, 了 = 了 /7 。 

PE. À Qs xx 3 x32 /nD Ds)=3.89903 

BUE: 2, =F- Ax — —143.02692 

回归 方程 的 斜率 房 和 截 距 房 的 标准 误差 8; 和 5;, 都 与 5, 有关， 它们 标准 误差 的 计 
算 公式 如 下 : 


斜率 Sa = Sy 1/ Die - xy = 0.51609 


WE S, =S f1 «efc -8y -3227459 
回归 方程 斜率 和 截 距 在 给 定 显著 性 水 平 a， 即 100X(1-0)% 置信 和 度 下 的 区 间 估 计 上 下 


限 分 别 为 房 二 Oo-2S 1/5 E-F} MÅ, tQ -2)5, "ne D 


上 面 的 拟 合 线性 模型 说 明 因 变量 Weight 和 自 变量 Height 之 间 服 从 如 下 估计 的 回归 
H: Y-fG)- Bj B. X. B 
Weight = f, + B, x Height = —143.02692 + 3.89902 x Height 
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比如 身高 最 小 的 乔 伊 斯 ， 其 身高 Height 和 体重 Weight 的 观测 值 为 51.3 和 50.5， 将 
身高 代入 上 面 线性 回归 模型 即 可 估计 对 应 的 体重 ， 称 为 点 估计 。 
Weight = —143.02692 + 3.89903 x Height = —143.02692 + 3.89903 x 51.3 = 56.993319 
也 就 是 给 定 身高 Height 51.3 根据 回归 方程 拟 合 出 来 的 体重 Weight fH 7g 56.993319. 
而 实际 观测 到 的 Height 值 为 50.5， 此 时 该 观测 值 的 残 差 等 于 实际 值 减 去 拟 合 值 50.5- 
56.993319=-6.493 319。 
回归 分 析 建立 的 回归 方程 模型 Y= f (x ) 在 用 于 预测 与 控制 时 ， 包 括 点 估计 和 区 间 估 
计 两 种 。 
CD 了 个 别 值 的 点 估计 一 对 于 自 变 量子 的 一 个 给 定 值 x*。， 可 以 使 用 回归 方程 计算 
出 它 的 估计 值 加 。 即 利用 回归 方程 预测 某 个 给 定 自 变 量 对 应 的 了 值 。 点 估计 不 能 给 出 估 
计 的 精度 ， 因 此 点 估计 与 实际 值 之 间 是 有 误差 的 ， 比 如 上 面 的 残 差 -6.493319 就 是 点 估 
计 的 残 差 值 。 因 为 存在 误差 ， 所 以 需要 进行 区 间 估 计 。 
(2) 了 平均 值 的 区 间 估 计 : 也 称 为 置信 区 间 估 计 ， 就 是 对 于 自 变 量子 的 一 个 给 定 
值 x 计算 因 变 量 了 的 均值 下 Go) 的 估计 区 间 ， 称 为 置信 区 间 ， 置 信 区 间 估 计 的 下 限 和 上 
限 分 别称 为 LCLM 和 UCLM。 因 变量 均值 E(3) 在 1-a 置信 水 平 下 的 置信 区 间 为 


b» e 0-25, ne -xy[*G-xy 
2 iz 


AP: S, 为 误差 项 标准 误差 的 估计 。 

Go 了 个 别 值 的 区 间 估 计 : 也 称 为 预测 区 间 估 计 ， 就 是 对 于 自 变量 了 的 一 个 给 定 
值 wo 计算 因 变量 了 的 一 个 个 别 值 的 估计 区 间 ， 称 为 预测 区 间 。 个 别 值 的 区 间 估计 不 但 包 
含 参数 估计 的 变异 ， 也 包括 误差 的 变异 ， 因 此 该 区 间 要 比 置信 区 间 要 宽 。 预 测 区 间 估 计 
的 下 限 和 上 限 分 别称 为 LCL 和 UCL， 因 变量 个 别 值 在 1-a 置信 水 平 下 的 预测 区 间 为 


i=l 
在 调用 PROC REG 进行 回归 分 析 时 可 同时 输出 原 观测 的 预测 值 〈 即 点 估计 ) 、 残 
差 值 〈 即 实际 值 与 预测 值 的 偏差 ) 、 置 信 区 间 上 下 限 、 预 测 区 间 上 下 限 等 数据 。 代 码 如 
程序 24-13 所 示 。 


程序 24-13 ”输出 点 估计 和 区 间 估 计数 据 
Proc reg data=sashelp.class; 
title "回归 分 析 "; 
model Weight=Height; 
output out=class out predicted=p residual=r 
LCL-lcl UCL-ucl LCLM-lclm UCLM=uclm ; 
run; 
proc print data-class out; 
run; 


jit 0-25, ite es cm XG-xy 
2 


运行 上 面 的 代码 后 SAS 系统 会 打印 输出 结果 如 图 24-12 所 示 ， 其 中 可 以 看 到 原来 的 
各 观测 数据 及 其 点 估计 和 区 闻 估 计数 据 ，p 列 为 基于 观测 自 变 量 的 估计 值 ，r 列 为 点 估 
计 的 残 差 。 


ENNNNETT SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


Obs Name Sex Age Height Weight p icim ucim Ici uci r 
1 ARREA S 14 69.0. 1125 126.006 116.942 135.071 100.646 | 151.367 | -13.5062 


2 EB 女 13 565 84.0 77.268 68.907 85.630 52.150 102.386. 6.7317 


3 55t 女 13| 653 980 111.580 | 105.260 117.899 ， 87.066 | 136.094 -13.5798 
4 Hs 女 14 628 102.5 101.832| 96.375 107.289 77.526 126.138 0.6678 
5 3# 男 14 63.5 1025 104.562| 98.982 110.141 80.228 128.895  -2.0615 
| 6 fISE| “| 男 12| 573 830 80388| 72667 88.108| 55476 105.299| 2.6125 
78 女 12| 598, 845 90135| 84040 96.231 65.678 | 114.592 | -5.6351 
DET Se 15 62.5. 1125 100.662. 95.226 106.099. 76.361 124.964 11.8375 
9 mm 男 13| 625 84.0 100.662 | 95.226 106.099 76.361 | 124.964 | -16.6625 
| 10 £8 læ | 12| 590| 995 | 87016 | 80479 93552 | 62445 111.587 | 12.4841 
11 | 乔 伊 斯 女 11 513 505 56993 43.804 70.182 29.883 84.103 | -6.4933 
12 æ 女 14 643, 90.0 107.681 101.842 113.520 83.286 | 132.075 -17.6807 
13 罗 伊 斯 女 12 563 770, 76488 67.960 85.017 51.315 101.662 | 0.5115 
“14 | 玛丽 女 15| 665| 1120 116.259 | 109.182 123.335 91.539 | 140.978 | -4.2586 
15 #8 E: 16 720. 1500 137.703 | 125.861 149.545 111.223 164.184 12.2967 
16 罗伯特 男 12 648 1280 109.630 103.571 115.690 85.182 134.078 18.3698 
7 3958 E 15 67.0. 1330 118.208 110.771 125.645 93.383 143.034 14.7919 
18 | 托马斯 男 11| 575, 850 81.167 73.600 88.735 56.303 106.032 3.8327 
19 AF E 15| 665 1120 116259 109.182 123.335 91.539 140.978 | -4.2586 


24-12. 输出 点 估计 和 区 间 估 计数 据 


实际 上 ， 从 过 程 步 PROC REG 输出 的 拟 合 图 ( 见 图 24-13) 中 能 清晰 反映 点 估计 、 
置信 区 间 和 预测 区 间 的 信息 。 


拟 合 图 : Weight 


观测 数 19 
参数 个 数 2 
误差 自由 度 17 
MSE 126.03 
RJ; 0.7705 
调整 R 方 ”0.757 


一 一 拟 合 moss gLGR - 95% 预 测 限 | 
图 24-13 ”回归 分 析 的 拟 合 图 
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对 SASHELP.CLASS 数据 集 进行 线性 回归 模型 拟 合 的 结果 中 调整 R 方 等 于 0.757, 
表明 体重 和 身高 之 间 是 存在 某 种 线性 依存 关系 的 。 通 过 用 Height 对 Weight 进行 建 模 得 
到 的 拟 合 回 归 模型 ， 对 给 定 身高 数据 ， 其 中 有 95% 的 把 握 认 为 体重 的 平均 值 会 落 在 图 中 
蓝 灰 色 的 置信 区 间 内 ， 同 样 有 95% 的 把 握 认 为 根据 估计 的 回归 方程 对 个 别 体重 值 进行 预 
测 ， 其 估计 值 会 落 在 虚线 带 内 。 

回归 分 析 的 拟 合 诊断 图 部 分 〈 见 图 24-14). 输出 非常 丰富 的 信息 ， 如 最 左上 角 的 残 
差 和 预测 值 投影 图 可 以 看 到 残 差 的 分 布 情况 ， 它 说 明 数据 中 变异 并 不 是 恒定 的 ， 而 是 随 
着 预测 值 的 增长 而 略 有 增长 。 但 总 体 而 言 残 差 没 有 明显 的 趋势 ， 因 此 回归 分 析 总 体 上 是 
可 接受 的 。 但 如 果 残 差 呈现 扇形 趋势 ， 说 明 需 要 一 个 方差 平稳 化 的 数据 变换 ， 而 如 果 呈 
现 曲 线 趋势 (比如 半圆 形 〉 则 暗示 回归 模型 中 可 能 需要 一 个 二 次 项 。 实 践 中 回归 分 析 需 
要 根据 拟 合 诊 断 图 来 调整 优化 模型 。 


拟 合 诊断 : Weighgt 


204 : 2 = 24 
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S opta 3o f g EKDE 
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-20 $ -2 ? -2 J 
60 80 100 120 140 60 80 100 120 140 005 0.15 025 
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20] €| 140] "/| 0254 ] 
P By 
104 b d 一 120] ar; 0.20- 
z ; "e | 
3 04 Lil ~ 1004 o Jo 90.15 
á E * Ed 0.10 
2-10| Z i80 y 
EZ öl Z 0.054 | T 
-204 7 A 0.00 Tess Hal | 
2-101 2 60 80 100 120 140 0 5 10 15 20 
分 位 数 预测 值 观测 
304 Fit-Mean 3% 
25 404 : 
3) M 观测 数 19 
a7 204 EI a 参数 个 数 2 
ES 
&154 o 本 | 误差 自由 度 17 
RI 1o | E E MSE 126.03 
5| 7207 aP RJ 0.7705 
40, 调整 R 方 。 0.757 
0 一 一 一 一 一 T r - 
-32-16 0 16 32 0.0 0.40.8 0.0 0.4 0.8 
残 差 比例 小 于 


K 24-14 拟 合 诊断 图 


回归 分 析 是 数据 分 析 科 学 中 极其 重要 的 组 成 部 分 ， 上 面 介 绍 的 只 是 最 基本 的 部 
分 。SAS 作为 全 球 最 为 专业 和 领先 的 数据 分 析 系 统 ， 除 了 提供 通用 的 回归 分 析 过 程 
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步 PROC REG 外 ， 它 还 提供 各 种 广泛 用 于 对 单个 独立 数值 变量 进行 线性 回归 模型 拟 合 
的 能 力 ; SAS 专业 分 析 软 件 包 SAS/STAT 模块 中 提供 各 种 专业 细 分 的 回归 分 析 模 型 ， 
包括 鲁 棒 回 归 、 广 义 线性 回归 、 非 线性 回归 、 非 参数 回归 、 分 位 数 回归 、 用 于 调查 数 
据 的 回归 建 模 、 用 于 生存 数据 的 回归 建 模 以 及 用 于 变换 变量 的 回归 建 模 。SAS/STAT 
模块 最 常用 的 是 逻辑 回归 LOGISTIC 和 非 线性 回归 NLIN 过 程 步 ，SAS/STAT 总 共 提 
供 多 达 27 种 不 同 的 回归 模型 过 程 步 用 于 拟 合 ， 包 括 ADAPTIVEREG、CATMOD、 
GAM、GENMOD、GLIMMIX、GLM、GLMSELECT、LIFEREG、LOESS、 
LOGISTIC, MIXED, NLIN, NLMIXED, ORTHOREG, PHREG, PLS, PROBIT, 
QUANTREG, QUANTSELECT, REG, ROBUSTREG, RSREG, SURVEYLOGISTIC, 
SURVEYPHREG, SURVEYREG, TPSPLINE 和 TRANSREG; 另外 ，SAS/ETS 模块 中 
则 提供 各 种 专门 用 于 计量 经 济 学 领域 的 时 间 序 列 分 析 和 联动 系统 分 析 的 过 程 步 ， 包 括 
AUTOREG、PDLREG、MODEL、TSCSREG、SYSLINE 以 及 ENTROPY 等 ， 感 兴趣 的 
读者 可 以 查看 相关 帮助 来 获得 各 过 程 步 的 细节 。 

程序 24-14 的 例子 简单 展示 了 如 何 用 NLIN 非 线性 回归 模型 的 高 斯 一 牛顿 法 对 数据 
进行 拟 合 ， 首 先 人 为 用 特定 函数 生成 待 分 析 的 数据 ， 然 后 调用 SAS 进行 拟 合 看 能 不 能 很 
好 地 重建 模型 并 估算 模型 参数 。 结 果 如 图 24-15 所 示 ， 它 则 表明 NLIN 能 完美 拟 合 输入 
数据 为 y=atbxtex 函数 的 样本 数据 ， 非 线性 回归 后 的 参数 估计 为 a=4，b=3，c=2， 与 构 
造 样本 数据 时 完全 一 样 。SAS 的 非 线性 回归 模型 支持 近 20 种 不 同 的 非 线性 模型 ， 功 能 
非常 强大 。 

程序 24-14 ， 非 线性 回归 

data mydata; 

do x-1 to 30; 
yy4* 3* x * 2 * x *x; 
output; 


end; 
run; 


proc nlin data-mydata plots - fit(stats-all) 
plots-diagnostics (stats-all); 
model y-a * b*x * c *x*x; 
parameters a-1l b-1 c-1 ; 

run; 


$m f crna 近似 95% SSR 
a 4.0000 2.849246E-13 4.000000 4.000000 
b 3.0000 4.2369E-14 3.000000 3.000000 
€ 2.0000 1.326148E-15 2.000000 2.000000 


24-15 ” 非 线性 回归 输出 的 参数 估计 


聚 类 分 析 


聚 类 分 析 用 于 在 事先 不 知道 类 别 的 情况 下 ， 完 全 按照 反映 对 象 特征 的 数据 将 对 象 进 
行 分 类 。 它 与 判别 分 析 不 同 。 判 别 分 析 是 基于 已 知 分 类 的 样本 建立 判别 函数 ， 对 未 知 类 
别 的 个 体 归 属于 哪个 类 别 进行 判别 。 因 此 ， 聚 类 分 析 是 一 种 没有 类 别 信息 可 参考 的 情况 
下 ， 利 用 距离 或 者 相似 性 系数 将 一 个 集合 划分 成 若干 个 子 集 的 过 程 ， 它 是 一 种 无 监督 的 
学 习 过 程 。 

要 将 对 象 聚 类 ， 首 先 要 定义 衡量 对 象 亲 玻 关系 的 距离 或 者 相似 性 度量 ， 也 可 以 是 密 
度 阔 值 。 如 果 对 样本 进行 聚 类 称 为 Q 型 聚 类 ， 如 果 对 变量 进行 聚 类 称 为 R 型 聚 类 。Q 型 
聚 类 常用 样本 之 间 的 距离 进行 衡量 ， 而 变量 之 间 则 常用 相似 性 度量 。 常 用 的 距离 包括 曼 
哈 顿 距离 、 欧 氏 距 离 〈 欧 式 距 离 )》 、 马 哈 拉 诺 比 斯 距离 〈 马 氏 距 离 )》、 切 比 雪 夫 距 离 、 
闵 氏 距离 〈 明 氏 距 离 )》 、 海 明 距 离 等 ;常见 的 相似 性 度量 则 包括 余弦 相似 度 、 皮 尔 逊 相 
关系 数 、Jaccard 相似 系数 等 。 

基于 划分 的 方法 是 选择 若干 个 所 谓 的 质心 或 凝聚 点 作为 类 别 的 代表 ， 然 后 将 所 有 待 
分 类 对 象 不 断 归 并 到 对 应 类 别 上 的 聚 类 过 程 。 类 别 的 质心 可 以 是 真实 存在 的 样本 ， 也 可 
以 是 样本 空间 内 的 虚拟 点 。 经 典 的 天 - 均值 及 其 衍生 算法 就 是 一 种 基于 划分 的 聚 类 算法 ， 
该 算法 优点 是 简洁 快速 ， 缺 点 是 需要 预先 人 为 指定 类 别 数目 ko K- 均值 的 步骤 一 般 是 先 
由 用 户 指 定 聚 类 个 数 上 进行 随机 产生 或 直接 指定 大 个 初始 聚 类 中 心 ; 然后 将 每 个 对 象 
分 配给 最 近 的 聚 类 中 心 ， 再 根据 已 分 配 类 别 的 对 象 重新 计算 大 个 类 别 新 的 聚 类 中 心 ; 重 
复 这 一 分 配 / 更 新 步骤 直到 聚 类 中 心 点 不 再 发 生变 化 或 欠 代 中 距离 改进 量 小 于 某 个 阔 值 ， 
或 者 迭代 的 次 数 达 到 指定 次 数 为 止 。 

除了 基于 划分 的 方法 ， 形 成 聚 类 的 过 程 还 可 以 是 将 所 有 对 象 作为 同一 类 ， 然 后 自 上 
而 下 的 逐渐 细 分 ， 或 者 将 每 个 对 象 作为 单独 分 类 ， 然 后 自 下 而 上 不 断 融 合 形成 同一 个 类 。 
这 种 聚 类 方法 称 为 层次 聚 类 或 系统 聚 类 ， 大 多 数 采用 自 下 而 上 的 方法 。 它 根据 距离 函数 
将 被 分 类 的 对 象 按 照 树 状 结构 关联 起 来 ， 因 此 我 们 可 以 在 指定 距离 上 对 树 状 结构 进行 分 
割 ， 所 有 叶子 节点 就 在 指定 的 距离 尺度 上 被 分 解 为 若干 子 集 。 比 如 图 25-1 中 的 虚线 处 可 
以 把 SASHELP.CLASS 的 所 有 学 生 分 成 3 个 簇 ， 乔 伊 斯 自 成 一 簇 ， 罗 纳 德 / 罗伯特 / 3E 
利 普 3 个 观测 形成 另 一 和 能， 其 余 归 入 其 他 艇 。 
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聚 类 分 析 


廉 ] 
阿尔 弗 雷 德 二 一 " T 
0.0 0.5 1.0 1.5 
聚 类 之 间 的 平均 距离 
图 25-1 SASHELPCLASS 聚 类 图 


虽然 物 以 类 聚 、 人 以 群 分 的 思想 已 经 存在 了 数 千年 ， 但 现代 聚 类 分 析 却 始 于 人 类 学 
和 心理 学 。 聚 类 分 析 并 不 是 一 个 特定 算法 ， 而 是 一 个 蕴含 分 类 思想 的 复杂 过 程 。 聚 类 分 
析 已 经 发 展 出 上 百 种 聚 类 方法 ， 但 并 不 存在 所 谓 “ 正 确 ”的 聚 类 ， 聚 类 结果 最 终 还 是 要 
通过 人 为 主观 经 验 判断 才能 恰当 应 用 。 到 目前 为 止 ， 尽 管 某 些 统计 量 可 对 一 些 不 好 的 聚 
类 结果 提供 非常 有 用 的 信息 ， 但 不 存在 某 个 理想 的 统计 量 可 对 聚 类 分 析 结 果 的 质量 进行 
科学 判断 。 

聚 类 分 析 也 不 存在 对 各 种 现实 状况 通用 的 所 谓 万 能 方法 ， 因 此 不 管 是 基于 划 
分 的 方法 ， 如 K- 均值 及 其 衍生 算法 和 CLARA 算法 ， 还 是 基于 层次 聚 类 的 方法 如 
CURE/ROCK/BIRCH 算法 都 有 自己 的 特定 使 用 场景 。 比 如 K- 均值 方法 就 不 能 处 理 诸 如 
环形 分 布 的 非 凸 聚 类 以 及 基于 密度 的 对 象 结构 ， 因 此 人 们 需要 发 明基 于 分 布 或 密度 的 其 
他 聚 类 方法 , 育 类 算法 的 选择 和 待 分 析 的 数据 类 型 , 分 析 目 的 、 计 算 量 以 及 具体 应 用 有 关 。 

CD 基于 分 布 的 聚 类 方法 是 跟 统计 分 布 最 密切 的 聚 类 方法 , 它 基 于 期 望 最 大 化 思想 ， 
其 理论 基础 是 最 可 能 来 自 于 同一 分 布 的 对 象 ， 它 们 应 该 归属 同一 类 别 。 此 类 方法 的 计算 
一 般 比 较 复 杂 且 可 能 过 度 拟 合 。 

(2) 基于 密度 的 聚 类 方法 则 认为 归属 同一 类 别 的 数据 应 该 在 空间 上 具有 上 比 其 他 区 
域 更 加 密集 的 特性 ， 而 稀疏 区 域 的 数据 倾向 于 被 认为 是 噪声 或 离 群 点 。 基 于 密度 的 典型 
的 聚 类 方法 是 DBSCAN 方法 。 该 方法 的 缺点 是 需要 基于 密度 下 降 来 检测 聚 类 边界 ， 而 
这 一 点 在 现实 中 并 不 容易 保证 。 

随 着 大 数据 时 代 对 数据 语义 理解 需求 的 增加 ， 而 层次 聚 类 方法 因 计 算 量 大 又 不 适 
用 于 大 数据 ， 从 而 催生 了 一 些 快速 聚 类 方法 ， 用 来 对 大 数据 提前 生成 较 粗 粒度 的 数据 
分 区 ， 然 后 再 用 较 慢 的 层次 聚 类 方法 对 各 分 区 数据 做 进一步 的 聚 类 。 评 估 一 个 现代 聚 
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类 算法 好 坏 的 标准 是 ， 要 求 能 处 理 高 维 的 大 数据 ， 发 现任 意 形状 的 艇 且 不 需要 用 户 输 
入 太 多 参数 。 


25.1 RKE 


聚 类 度量 是 用 来 度量 两 个 对 象 〈 样 本 或 变量 ) 之 间 的 相似 性 ， 主 要 包括 距离 度量 和 
相似 性 系数 两 大 类 ， 距 离 常 用 于 样本 的 聚 类 ， 一 般 用 于 定 距 尺度 变量 ， 而 相似 性 系数 常 
用 于 变量 的 聚 类 。 其 中 距离 越 大 表示 差别 越 大 ， 而 相似 性 度量 越 大 则 表示 差别 越 小 。 实 
践 中 可 以 使 用 4d; -1- ps d; =1- 有 来 将 相似 性 系数 方 变换 成 统一 的 距离 尺度 dy IER 
越 大 表示 变量 间 差 异 越 大 。 

REXA n £f m 列 的 数据 ， 对 于 每 一 个 元 素 x 有 i=l, 2,…,n，j=1, 2,…, m， 其 中 
nn 为 样本 数 ，m 为 变量 数 。 则 常用 的 距离 度量 和 相似 性 系数 的 定义 如 下 : 


25.1.1 距离 系数 


CD 城市 街区 距离 (City Block Distance) : 反映 在 二 维 平面 上 就 是 指 上 下 左右 移 


动 时 两 个 点 之 间 的 距离 ， 即 Da =|*s -xa|+|y4 -ys|。 当 你 从 城市 的 一 个 地 方 沿 着 街道 
前 进 到 另 一 个 地 方 时 ， 不 管 你 是 在 哪个 十 字 路 口 转弯 ， 起 点 和 终点 之 间 的 距离 是 不 变 的 。 
它 也 称 为 绝对 距离 或 曼哈顿 距离 ，〈 见 图 25-2 曼哈顿 距离 )》 ， 其 数学 定义 如 下 : 


D, = Eh -xx| 
(2) 欧 氏 距离 (Euclidean Distance) : 反映 在 二 维 平面 上 就 是 两 点 之 间 的 直线 距离 ， 
即 De =VG -xs) *Qu-»,) CLIE 25-2 欧 几 里 得 距离 )》 ， 反 映 在 三 维 以 上 空间 中 
就 是 两 个 数据 点 之 间 的 实际 距离 。 如 果 把 数据 点 看 作 向 量 ， 欧 氏 距 离 也 是 该 维度 空间 上 
向 量 的 自然 长 度 。 其 数学 定义 如 下 : 


D, - SG. - n 


G) 切 比 雪夫 距离 〈Chebyshev Distance) : 反映 在 二 维 平面 上 就 是 如 果 一 个 点 只 
能 移 到 周围 8 个 相 邻 点 中 的 任意 一 个 ， 则 从 一 个 点 4 到 另 一 个 点 B 所 需 的 最 小 步 数 就 是 


切 比 雪夫 距离 ， 即 Dys =max(|xy -x| |y 一 ya 〈 见 图 25-2 切 比 雪夫 距离 )》 。 切 比 雪夫 
距离 也 是 两 个 点 在 各 维度 上 的 差 值 的 最 大 值 ， 其 数学 定义 如 下 : 


D, = maxx, -x; p 
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25-2 显示 了 3 种 距离 在 二 维 平面 上 的 具体 语义 : 


A 
曼哈顿 距离 欧 几 里 得 距离 切 比 雪夫 距离 
图 25-2 3 种 距离 的 形象 表示 


(4) 闵 氏 距离 CMinkowski Distance) 是 以 上 各 种 形式 距离 的 统一 表示 ， 可 理解 为 
欧 氏 距离 的 一 般 形式 。 其 数学 定义 如 下 : 


a 
(Br 
其 中 p=1 即 曼 哈 顿 距离 ，p=2 即 欧 氏 距离 ， 在 p 一 时 ， 就 是 切 比 雪夫 距离 。 图 


25-3 显示 了 闵 氏 距离 在 不 同 p 值 时 的 几何 表示 《p=2” h=-2, -1.5, -1, …) 。 可 以 说 切 比 
雪夫 距离 是 闵 氏 距 离 的 极限 形式 ， 而 闵 氏 距离 是 所 有 距离 的 统一 表示 形式 。 
p=0.25 p=0.5 P=1 pa p=4 p=8 


p=0.354 p=0.707 p=1.414 p=2.828 p=5.657 poo 
图 25-3 闵 氏 距离 的 几何 表示 


(5) 马 氏 距离 《Mahalanobis Distance) : 假定 两 个 随机 向 量 互 和 马 为 来 自 均值 向 
量 为 4w， 协 方差 矩阵 为 Y 的 同一 分 布 ， 则 马 氏 距离 可 以 衡量 它们 之 间 的 差异 程度 。 其 数 


学 定义 如 下 : 

其 中 如 果 协 方差 矩阵 为 单位 矩阵 ， 则 马 氏 距离 赔 变 为 欧 氏 距离 ， 如 果 协 方差 矩阵 为 
对 角 和 矩阵 (说 明 各 变量 之 间 相 互 独立 ) ， 则 距离 度量 称 为 标准 化 欧 氏 距离 。 

两 点 之 间 的 马 氏 距离 与 原始 数据 的 测量 单位 无 关 ， 且 标准 化 数据 和 去 中 心 化 数据 计 
算出 的 马 氏 距离 是 相同 的 。 马 氏 距 离 考虑 到 各 变量 之 间 的 联系 且 尺 度 无 关 ， 因 此 它 能 够 
排除 变量 之 间 相 关 性 的 干扰 且 不 受 量 纲 的 影响 。 图 25-4 中 垂直 实 线 2.5 到 两 个 分 布 概率 
密度 曲线 相交 的 垂直 虚线 之 间 的 观测 值 x， 尽 管 看 起 来 离 /w=5 更 近 一 点 ， 但 实际 上 它 来 
自 于 总 体 久 =0， 基 于 样本 分 布 计算 的 马 氏 距离 可 揭示 这 一 点 。 
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由 于 马 氏 距 离 是 基于 样本 分 布 的 一 种 距离 ， 如 果 两 个 同样 的 样本 来 自 协 方差 矩阵 不 
同 的 两 个 总 体 ， 其 计算 出 来 的 马 氏 距离 是 不 同 的 。 马 氏 距离 的 物理 意义 是 规范 化 主 成 分 
空间 中 的 欧 氏 距离 ， 因 此 也 称 为 广义 欧 氏 距离 。 马 氏 距 离 的 缺点 是 可 能 放大 一 些 变 化 微 
小 的 变量 的 作用 。 

(6) ŽREB (Canberra Distance) 如果 观测 值 都 是 大 于 零 的 数据 ， 即 各 > 0， 则 
可 根据 如 下 公式 计算 兰 氏 距离 。 兰 氏 距 离 自 带 标准 化 ， 能 克服 数据 量 纲 的 影响 且 对 奇异 
值 不 敏感 ， 适 合 高 度 偏 倚 的 数据 处 理 。 其 缺点 是 没有 考虑 变量 之 间 的 相关 性 。 数 学 定义 
如 下 : 


dA« [x -Xal 
E p Xi + Xj 
CD) 汉 明 距离 (Hamming Distance) 用 于 衡量 两 个 等 长 字符 串 之 间 的 距离 ， 就 是 其 
中 一 个 字符 串 变换 到 另 一 个 字符 串 所 需 的 最 小 替换 次 数 ， 如 “1001” 和 “1111” 之 间 


的 汉 明 距离 为 2， 而 “1001” 和 “0110” 之 间 的 汉 明 距离 为 4。 


25.1.2 ”相似 性 /相关 系数 


上 面 讲 的 距离 系数 用 于 衡量 两 个 样本 或 观测 的 相似 程度 不 同 ， 相 似 性 和 相关 性 系数 
一 般 用 于 衡量 纵向 上 两 个 变量 的 相关 程度 。 在 第 24 章 相 关 分 析 中 已 经 讲 到 了 衡量 线性 
相关 性 的 皮尔 逊 相关 系数 ， 该 系数 在 聚 类 分 析 中 依然 具有 重要 作用 。 

(1) 皮尔 逊 相关 系数 : 等 于 两 个 变量 相关 程度 的 协 方差 除 以 两 个 变量 的 标准 差 ， 
取 值 在 [-1, 1]。 其 计算 公式 如 下 : 


cov(X,, X,) LCs =F) y -x,) 


k= ^s z 
VDX DX, me [Ee -zy 
它 大 于 零 表 示 正 相关 ， 否 则 表示 负 相 关 ; 其 绝对 值 越 接近 1 表示 相关 的 程度 越 高 ， 
一 般 按 每 级 0.2 可 分 为 5 个 等 级 〈 见 图 25-53) : 无 相关 、 弱 相关 、 中 等 相关 、 强 相关 和 
极 强 相关 。 


EP Lj-1,2, m 
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, 极 强 
无 相关 弱 相 关 He 强 相关 相关 


图 25-5 皮尔 还 相关 等 级 


皮尔 逊 相关 系数 计算 公式 中 每 个 变量 都 减 去 了 该 变量 的 均值 ， 这 是 一 个 去 中 心 化 的 
处 理 过程 。 从 公式 中 可 知 计算 皮尔 还 相关 系数 要 求 两 个 变量 的 标准 差 ( 即 公式 中 的 分 母 ) 
都 不 能 为 0。 一 般 要 求 变量 是 彼此 相互 独立 的 连续 型 变量 ， 且 它们 之 间 存 在 线性 关系 ， 
两 个 变量 的 总 体 是 正 态 分 布 或 接近 正 态 分 布 。 

(2) 余弦 相似 度 系数 : 如 果 把 观测 数据 看 作 是 二 维 平面 上 的 两 个 向 量 ， 如 果 只 关 
心 向 量 的 方向 而 不 是 数值 大 小 ， 则 可 用 两 个 向 量 的 夹 角 余 弦 Cos (9) 来 衡量 两 个 二 维 向 量 
的 相似 性 。 余弦 相似 度 系 数 可 推广 到 m 维 向 量 空间 中 的 两 个 向 量 , 其 取 值 在 [-1, 1] 之 间 。 
余弦 相似 度 系 数 越 大 表示 两 个 向 量 的 夹 角 越 小 ， 否 则 表示 两 个 向 量 的 夹 角 越 大 。 两 个 向 
量 方向 完全 重合 时 为 1， 两 个 向 量 的 方向 完全 相反 时 为 -1。 其 数学 定义 如 下 : 


Ds jk 


j WA » i j=l, 2, Ħ n 
Sa A m 


如 果 余 弦 相 似 度 只 关心 向 量 方向 而 对 数值 不 敏感 ， 实 践 中 往往 会 导致 计算 结果 误差。 
比如 有 两 个 用 户 对 两 个 项 目的 评分 分 别 为 2, 4) 和 (8, 10) 分 (满分 为 10 分 ) ， 计 算 余 
弦 相 似 度 为 [(2x8)+(4x10)]/(V2 +4 V8 «10*) - 0.98 。 实 际 上 从 评分 可 以 看 出 第 一 个 
用 户 不 喜欢 那 两 个 项 目 ， 而 第 二 个 用 户 很 喜欢 这 两 个 项 目 。 则 说 明 这 儿 用 余弦 相似 度 存 
在 一 定 的 问题 ， 因 此 引入 修正 余弦 相似 度 (Adjusted Consine Similarity) ， 即 将 计算 公 
式 中 的 每 一 项 都 减 去 其 均值 来 进行 归 一 化 ， 即 


Sj = 


m 
PICA =X X -xj) 
[zr 


3:6. - Y [2.6 - x 

两 个 用 户 对 两 个 项 目的 评分 均值 为 (5, 77)， 因 此 将 两 个 向 量 修正 为 (-3, 73) 和 (3, 3). 
此 时 再 计算 余弦 相似 度 为 -1， 此 余弦 相似 度 就 是 修正 余弦 相似 度 ， 它 更 能 反映 两 个 用 户 
对 该 两 个 项 目 评价 的 实际 情况 。 

实际 上 ， 从 公式 中 可 以 看 出 归 一 化 数据 计算 出 来 的 余弦 相似 系数 等 价 于 皮尔 逊 相关 
系数 ， 即 CosSim(x X, yy) - Cor, y) 。 而 对 于 均值 为 0， 方差 为 1 的 标准 化 数据 ， 
皮尔 逊 相关 系数 还 等 于 协 方差 。 

(3) Jaccard 相似 系数 : 两 个 集合 的 交集 在 并 集中 所 占 的 比例 ， 称 为 集合 的 杰 卡 德 
相似 系数 〈 见 图 25-6) 。 它 衡量 两 个 集合 的 相似 程度 ， 可 用 于 衡量 样本 的 相似 度 。 其 数 


u^ 
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学 表示 如 下 ， 但 其 中 x; M y 是 集合 而 不 再 是 向 量 。 


J Nx; 
= 一 一 
xUx, 


MR p 为 两 个 集合 都 包含 的 元 素 个 数 ，g 为 x; 中 包含 而 集合 不 包含 的 元 素 个 数 ， 
r HRR x; 中 不 包含 而 集合 包含 的 元 素 个 数 。 


c, 


图 25-6 集合 关系 


则 Jaccard 相似 系数 可 根据 如 下 公式 计算 出 : 
万 = 一 二 
q+p+r 
Jaccard 相似 系数 衡量 两 个 样本 中 包含 相同 元 素 的 比例 ， 而 Jaccard 距离 则 衡量 
两 个 集合 的 差异 ， 是 两 个 集合 中 不 同 元 素 在 并 集中 所 占 的 比例 ， 数 学 上 Jaccard 距离 
—]-Jaccard 相似 系数 。 


25.1.3 SAS 实践 


SAS 中 计算 相似 性 与 距离 矩阵 ， 可 以 使 用 PROC DISTANCE 来 完成 。 由 于 一 个 数据 
集 既 包含 分 类 变量 又 可 包含 定量 变量 ， 因 此 我 们 在 计算 变量 的 距离 或 相似 性 之 前 ， 需 要 
指定 变量 的 测量 尺度 。 

在 统计 学 上 ， 测 量 尺度 表示 我 们 能 从 变量 数据 中 获得 什么 信息 ， 其 包括 4 个 级 别 : 
定 类 变量 、 定 序 变量 ， 定 距 变 量 和 定 比 变量 ; 后 一 级 的 变量 包含 前 一 级 变量 的 特性 ， 但 
有 自己 的 特性 。 比 如 定 类 变量 只 能 做 等 于 或 不 等 于 的 比较 ， 定 序 变量 则 可 以 做 大 于 /小 
于 的 比较 ， 但 不 能 做 加 法 。 定 距 变 量 可 以 作 加 减 运算 ， 但 不 能 做 乘除 ; 定 比 变量 则 不 但 
有 定 距 变量 的 间距 特征 ， 还 因为 存在 绝对 零点 而 可 以 作 乘 除 运算 。 详 情 参阅 第 18 章 统 
计 学 上 的 变量 类 型 一 节 。 

SAS 对 测量 尺度 有 更 加 细致 的 考虑 , 它 的 定 类 变量 进一步 细 分 为 非 对 称 和 对 称 两 种 ， 
因此 在 SAS 中 它 共 包含 ANOMINAL, NOMINAL, ORDINAL, INTERVAL 和 RATIO 5 
种 测量 尺度 。 

a) 前 3 个 为 分 类 变量 (Categorical) ， 包 括 非 对 称 定 类 变量 、 对 称 定 类 变量 和 定 
序 变 量 。 分 类 变量 的 存储 数据 类 型 可 为 字符 型 或 数值 型 。 

COD 后 两 个 为 定量 变量 (Quantitative). 中 的 定 距 和 定 比 变量 ， 其 存储 数据 类 型 必 
须 是 数值 型 。 

下 面 的 过 程 步 PROC DISTANCE 计算 SASHELPCLASS 中 各 观测 中 身高 的 距离 ， 其 
中 EUCLID 表示 计算 欧 氏 距离 〈 见 程序 25-1) 。 


SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


程序 25-1 计算 距离 系数 

Proc distance data=sashelp.class method=EUCLID out=distance dist; 
var ratio( weight height); 

run; 

proc print;run; 


系统 会 输出 距离 矩阵 到 DISTANCE DIST 数据 集中 ， 如 图 25-7 所 示 。 


Obs pisn| Dist2 Dist3 Dista] Dist Dist Dist7 DisiB| Disi9 Dist?O Dist11| Disti2| psna| Distria] Disns| Dist16 | Dist17| Disti8 | Dist19 
1| 00000 
2/31.1207| 0.0000 
3 149645 165360 00000 
4|117661 195433 51478 00000 
5/114127 197800 48466 0.7000 00000 
6317355 12806 17.0000 202608 204619 0.0000 
729472 | 33377 145774 182483 183763 29155 0.0000 
B 65000 29.1247 147679 100045 100459 299548 28.1299 00000 
9/202318| 60000 142773 185024 185270 52953 27459 285000 00000 
10 164012 157003 64761 48415 54083 165873 150213 134629 15802 0.0000 
11644771 | 33.9012 495202 532565 534120 330492 35.0464 630035 353227 496013 0000 
12| 22956 9.8407 80623 125897 125255 989905 7.1063 225719 62642 108784 41584| 0.0000 
13/377033| 7.0029 228473 263154 264970 60828 82765 360373 93509 226614 25968 152643 0.0000 
14 | 25495 207321 140513 101951 99624 304243 283044 4031282843 145774 63351 221097 364580 00000 
18 37.6198 | 67.7956 524299 483827 482545 68.5937 666265 386846 666802 521464 101.630 604921 746692 383960 00000 
16 160599 447760 300042 255783 255331 456207 437864 156697 44060! 29.0842 78667 380033 517035 160901 23.1482 00000 
A7 | 20.5973 | 50.1124 350413 307878 30002 50.9322 49.0315 209851 492062 344420 83961 430847 57013! 21006 177200 54626 0.0000 
18 298077 | 14142 151605 182850 185000 20100 23537 279508 50990 145774 35053 84404 80895 284605 665977 436152 489311 0.0000 
19| 25495 29.7321 140513 101951, 99624 304243 283044 40311 282843 145774 63351 221097 364560 00000 383960 160901 210060 284605| — 0 


图 25-7 输出 距离 系数 


SAS 支持 39 种 不 同 的 距离 和 相似 性 系数 计算 方法 ， 下 面 列 出 了 PROC DISTANCE 
最 常用 的 METHOD 参数 , 如果 没有 特殊 注 明 则 表示 该 方法 适用 于 定 序 、 定 距 和 定 比 变量 。 


CITYBLOCK -城市 街区 距离 

EUCLID - 欧 氏 距离 

CHEBYCHEYV 一 切 比 雪夫 距离 

L- IRIE H, WWL) 表示 欧 氏 距离 
POWER(p.r) 一 广义 欧 氏 距离 


CANBERRA 一 兰 氏 距离 ， 仅 适用 于 定 比 变量 

COSINE - 余弦 相似 系数 ， 仅 适用 于 定 比 变量 

CORR - 相关 系数 

JACCARD -JACCARD 相 似 系数 ， 仅 适用 于 非 对 称 定 类 变量 和 定 比 变量 


对 于 一 个 稍微 复杂 一 点 的 数据 集 ， 需 要 同时 指定 多 个 变量 的 测量 尺度 ， 此 时 可 以 将 
数据 集中 的 多 个 变量 归 入 特定 测量 尺度 并 指定 标准 化 方法 ， 从 而 能 完整 科学 地 计算 出 距 
高 矩 阵 ( 见 程序 2522) 。 


程序 25-2 ”指定 测量 尺度 计算 距离 系数 
Proc distance data=sashelp.class method=dgower out=distance dist; 
var ratio(weight / std-maxabs) 


interval(height / std-range) 
ordinal(age / std-range)run; 


nominal (sex); 
run; 
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在 计算 相似 度 或 距离 时 ， 可 对 不 同 分 组 分 别 进行 。 这 时 可 指定 分 组 变量 ， 如 可 以 按 


R SEX 变量 分 别 计算 距离 〈 见 程序 25-3) 。 


程序 25-3” 按 分 组 计算 距离 系数 


Proc sort data=sashelp.class out=sorttemptablesorted; 


by sex; 
run; 


Proc distance data=sorttemptablesorted method=dgower 


out=distance dist; 


var ratio(weight / std-maxabs); 


by sex; 


proc delete data-sorttemptablesorted; 


proc print data-distance dist;run; 


系统 输出 结果 如 图 25-8 所 示 。 


0.06667 0.00000 
0.19667 0.13000 
0.19000 0.12333 
0.08667 0.02000 
0.25000 0.31667 
0.10333 0.17000 
0.13667 0.20333 
0.18333 0.11667 
0.06333 
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0.12444 | 0.00000 
0.16444 | 0.04000 
0.00444 0.12000 
025333 0.12680 
0.29778 0.42222 
0.05333 0.07111 
0.06222 0.18667 
0.24889 0.12444 


0.00000 
0.00667 
0.11000 
0.44667 
0.30000 
0.33333 
0.01333 
0.19333 


0.00000 
0.16000 
0.08889 
0.46222 
onm 
0.22667 
0.08444 


Distt Dist2 Dist3  Dist4 


0.00000 
0.10333 
0.44000 
0.29333 
0.32667 
0.00667 
0.18667 


0.00000 
0.24889 
0.30222 
0.04889 
0.06667 
0.24444 


DistS 


ossi 
0.20000 
031556 
0.00444 


0.00000 
0.14667 
0.11333 
0.43333 
0.25333 


0.00000 
035111 
0.23556 
0.54667 


Dist7 DistB Dist9 Dist10 


0.00000 
0.03333 0.00000 

028667 0.32000 0.00 
0.10667 0.14000 0.18 0 


0.00000 
0.11556 0.00000 
0.19556 031111| 0.00 


图 25-8 分 组 输出 距离 系数 


25.2 案 类 形成 方法 


25.2.1 一 次 形成 分 类 系统 


从 距离 矩阵 或 相似 性 矩阵 生成 最 终 聚 类 系统 有 多 种 方法 ， 下 面 以 实例 演示 聚 类 的 形 


SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


成 过 程 。 首 先 假定 有 如 下 6 个 数据 点 的 数据 《〈 见 程序 25-4) ， 其 数据 在 变量 空间 的 投 点 


如 图 25-9 所 示 。 后 续 的 分 析 探 讨 将 基于 此 演示 数据 进行 说 明 。 


程序 25-4 准备 聚 类 数据 
data dl; 
input id x y 80; 
datalines; 


proc sgplot data-dl; 
scatter x-x y-y / datalabel-id ; 
xaxis min-0 max-3 grid ; 
yaxis min=0 max-3 grid 

run; 


3.0 


0.0 0.5 1.0 


1.5 2.0 


25 


图 25-9 聚 类 数据 在 二 维 平面 的 投影 


3.0 


现在 需要 对 6 行 2 列 的 样本 数据 进行 聚 类 。 一 般 地 ， 对 于 fT m 列 的 数据 表 ， 每 列 
表示 一 个 变量 〈 也 称 维度 或 指标 ) ， 每 一 行 表示 一 个 样本 。 如 果 聚 类 分 析 用 于 分 析 变 量 
之 间 的 关系 ， 称 为 R 型 分 析 ; 如 果 用 于 对 样本 进行 聚 类 ， 分 析 样 本 之 间 的 关系 ， 则 称 为 
Q 型 分 析 。 理 论 上 只 要 将 数据 进行 转 置 ， 就 可 以 使 用 同样 的 聚 类 分 析 对 数据 进行 运算 。 


下 面 以 Q 型 聚 类 分 析 为 例 探讨 一 次 性 形成 分 类 系统 的 聚 类 过 程 。 


对 于 分 析 n 行 m 列 的 样本 数据 [n m]， 可 对 n 个 样本 两 两 之 间 进 行 尺度 计算 ， 形 成 
[n, n] 的 方形 尺度 和 矩阵， 且 该 窍 阵 上 下 三 角 对 称 。 如 果 采 用 距离 作 尺 度 ， 对 角 线 元 素 为 0， 
其 余 矩 阵 元 素 大 于 零 ， 数 值 越 大 表示 距离 越 远 ， 如 果 是 相似 性 / 相关 系数 矩阵 ， 对 角 线 
元 素 为 1， 其 余 矩 阵 元 素 取 值 在 [-1, 1] 之 间 ， 正 负 号 表示 正 相 关 还 是 负 相关 ， 绝 对 值 越 


大 表示 相似 性 / 相关 性 越 强 。 


对 于 前 面 的 演示 数据 ， 可 以 根据 尺度 计算 方法 很 容易 算出 欧 氏 距离 方 阵 ， 其 中 计算 
距离 前 使 用 了 Min-Max 标准 化 处 理 〈 请 参考 数据 标准 化 部 分 ) 。 对 应 的 SAS 代码 如 程 


序 25-5 所 示 ， 输 出 结果 如 图 25-10 所 示 。 
程序 25-5 计算 距离 数据 


proc distance data-dl method-EUCLID out-dl dist; 
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var ratio( x y /std=range ) ; 


Obs Dist! Dist2 Dist3 Dist4 Dists Dist6 


3 | 0.50000 0.70711 | 0.00000 
4 | 0.55902 | 0.55902 | 0.25000 0.00000 
5 | 0.63738 | 0.72887 | 0.17678 0.17678 | 0.00000 | 
”6| 141421 1.11803 | 1.11803 0.90139 09519 0 


图 25-10 聚 类 数据 


该 矩阵 揭示 了 6 个 样本 两 两 之 间 的 距离 ， 一 次 形成 聚 类 的 方法 就 是 直接 从 上 三 角 拢 
阵 中 按照 距离 从 小 到 大 《〈 如 果 是 相似 性 ， 则 从 大 到 小 ) 的 顺序 构建 聚 类 树 的 过 程 。 聚 类 
时 从 该 方 阵 上 三 角 矩 阵 中 从 小 到 大 依次 寻找 最 短 距 离 ， 并 剔除 对 应 的 列 ， 则 依次 搜索 结 
果 为 [3, 5]-0.177, [3, 4]-0.250, [1, 2]=0.500，[1, 3]=0.500，[4, 6]=0.901。 因 此 其 聚 类 谱 
系 图 的 形成 步骤 为 : 创建 新 类 [3, 5]， 合 并 4 到 3 所 在 类 ， 创 建新 类 [1, 2]， 合 并 1 到 3 
所 在 类 ， 最 后 合并 6 到 4 所 在 聚 类 〈 见 图 25-11) 。 


图 25-11 一 次 形成 分 类 系统 结果 


2522 K- 均 值 聚 类 


K- 均值 聚 类 的 思想 最 早 是 Stuart Lioyd 在 1957 年 提出 的 ， 而 E. W. Forgy 在 1965 年 
也 发 表 了 本 质 上 一 样 的 思想 方法 ， 只 不 过 那个 时 候 并 不 叫 K- 均值 而 已 。 英文“K-means” 
一 词 直到 1967 年 才 由 James MacQueen 提出 ，K- 均值 方法 有 时 也 叫 劳 埃 德 方法 或 者 
Lioyd-Forgy 方法 。 

K- 均值 聚 类 的 核心 思想 为 指定 划分 数目 的 最 佳 划分 。 对 于 了 个 观测 ， 每 个 观测 是 一 
个 m 维 的 实数 向 量 ， 现 在 需要 找到 个 聚 类 (其 中 上 志 n， 即 个 子 集 ) ， 使 得 每 个 类 
别 分 组 内 的 方差 最 小 化 ， 因 此 K- 均值 的 目的 就 是 从 个 观测 中 找到 个 m 维 向 量 ， 使 
下 面 的 等 式 成 立 : 
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k 2 " 
WE min? Yl = u| —arg min Y |S,|Vars, 
s il xes s i 


RP: 5={51, SS …, SO 为 上 个 子 集 ; 1 为 第 i 个 子 集 所 有 数据 的 均值 (或 称 质心 )。 
由 于 数据 的 总 方差 是 恒定 的 ， 如 果 一 个 子 集 内 的 方差 达到 最 小 化 ， 则 意味 着 子 集 间 所 有 
点 之 间 的 方差 达到 最 大 化 ， 即 组 内 差异 尽 可 能 小 ， 组 间 差 异 尽 可 能 大 。 如 果 将 分 配 类 别 
和 更 新 质心 两 阶段 分 别 被 看 作 期 望 计算 阶段 E) 和 最 大 化 阶段 M) , JU K- 均值 方法 
在 广义 上 是 期 望 最 大 化 (Expectation Maximization， EMO 算法 的 一 个 变 体 。 

K- 均值 聚 类 的 核心 实现 步骤 为 以 下 内 容 。 

(1) 随机 选取 大 个 真实 /或 虚拟 的 数据 点 作为 初始 质心 。 初 始 质心 的 选择 对 聚 类 
结果 具有 重要 影响 ， 因 此 如 何 科学 选择 这 些 初始 质心 很 重要 ， 一 般 选 择 彼此 尽 可 能 远 
的 若干 样本 。 

(2) 分 配 类 别 阶段 : 计算 每 一 个 观测 到 这 大 个 聚 类 中 心 的 距离 ， 将 观测 唯一 分 配 
给 距离 最 近 的 那个 质心 ， 从 而 将 每 个 观测 分 配 到 大 类 中 的 一 个 。 

(GO 更 新 质心 阶段 : 根据 观测 所 属 类 别 ， 重 新 计算 磊 个 类 别 的 均值 ， 即 更 新 左 个 聚 
类 中 心 。 

(4) 反复 (2) 、 G) 两 个 步骤 ， 直 到 聚 类 中 心 不 再 发 生 改 变 ， 迭 代 达 到 指定 次 
数 或 改进 小 于 指定 阔 值 为 止 。 

K- 均值 聚 类 算法 的 核心 数据 结构 和 自我 迭代 收敛 如 图 25-12 所 示 ， 分 配 类 别 和 更 新 
质心 两 个 阶段 反复 执行 ， 直 到 迭代 收敛 为 止 。 


Æ 25-12 K- 均值 迭代 过 程 


为 进一步 展示 实际 运行 过 程 ， 对 于 前 面 6 个 演示 数据 点 进行 迭代 。 为 直观 演示 目的 ， 
数据 未 作 Min-Max 标准 化 。 假 定 初始 值 质心 就 是 数据 中 的 前 3 个 点 (0.500, 0.500), (0.500, 
1.500), (1.500, 0.500)， 则 K- 均值 聚 类 形成 中 每 一 步 的 关键 数据 结构 如 表 25-1 所 列 ， 每 
个 观测 到 3 个 质心 的 距离 在 尺度 的 3 列 中 显示 。 


表 25-1 K- 均值 计算 过 程 


观测 [n, m] 质心 [k, m] 尺度 [n,k] 聚 类 分 配 

0.500 0.500 0.500 0.500 0.000 1.000 1.000 Obs[ 1 ]-»Cluster[ 1] * 
0.500 1.500 0.500 1.500 1.000 0.000 1.414 Obs[ 2 ]-»Cluster[ 2 ] * 
1.500 0.500 1.500 0.500 1.000 1.414 0.000 Obs[ 3 ]-»Cluster[ 3 ] * 
1.500 1.000 1.118 1.118 0.500 Obs[ 4 ]-»Cluster[ 3 ] * 
1.750 0.750 1.275 1.458 0:354 Obs[ 5 ]-»Cluster[ 3 ] * 


2.500 2.500 2.828 2:236 2.236 Obs[ 6 ]-»Cluster[ 2.] * 


观测 [n, m] 


质心 [k, m] RẸ [n,k] 
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ER) 
聚 类 分 配 


0.500 0.500 
0.500 1.500 
1.500 0.500 
1.500 1.000 
1.750 0.750 
2.500 2.500 


0.500 0.500 
0.500 1.500 
1.500 0.500 
1.500 1.000 
1.750 0.750 
2.500 2.500 


0.500 0.500 
1.500 2.000 
1.583 0.750 


0.000 1.803 1.112 
1.000 1.118 1.318 
1.000 1.500 0.264 
1.118 1.000 0.264 
1.275 1.275 0.167 
2.828 1.118 1.976 
0.500 2.828 1.112 
0.500 2.236 1.318 
1.118 2.236 0.264 
1.000 1.803 0.264 
1.275 1.904 0.167 
2.500 0.000 1.976 


0.500 1.000 
2.500 2.500 
1.583 0.750 


Obs[ 1 ]-»Cluster[ 1 ] 
Obs[ 2 ]-»Cluster[ 1 ] * 
Obs[ 3 ]->Cluster[ 3 ] 
Obs[ 4 ]->Cluster[ 3 ] 
Obs[ 5 ]-^Cluster[ 3 ] 
Obs[ 6 ]-^Cluster[ 2 ] 
Obs[ 1 ]->Cluster[ 1 ] 
Obs[ 2 ]->Cluster[ 1 ] 
Obs[ 3 ]-»Cluster[ 3 ] 
Obs[ 4 ]->Cluster[ 3 ] 
Obs[ 5 ]->Cluster[ 3 ] 
Obs[ 6 ]-^Cluster[ 2 ] 


图 25-13 可 更 直观 地 看 到 K- 均值 聚 类 的 生成 过 程 ， 对 6 个 点 的 聚 类 只 用 了 2 WE 
代 即 收敛 。 小 圆圈 为 初始 质心 和 每 一 步 聚 类 后 更 新 的 质心 ， 椭 圆 或 大 圆圈 为 数据 根据 已 
有 质心 形成 的 分 类 。 


0.5 


2.0 2.5 3.0 


25-13. K- 均值 形成 聚 类 过 程 


K- 均值 聚 类 算法 主要 有 如 下 一 些 特征 。 
(1) 需要 预先 指定 分 类 数目 或 初始 质心 c[k m] 信息 。 如 果 正 值 或 初始 质心 选 不 
恰当 可 能 会 产生 不 好 的 聚 类 ， 因 此 需要 反复 调试 确定 最 优 分 类 数目 。 


2.0 2.5 


SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


Q) 使 用 欧 氏 距离 作为 分 类 度量 ， 方 差 作 为 组 间 差 异 的 度量 。 如 果 使 用 欧 氏 距离 
以 外 的 其 他 距离 函数 ， 需 要 确保 迭代 算法 是 收敛 的 ， 即 迭代 能 够 确保 组 内 方差 与 上 一 次 
比 减少 。 

G) 该 算法 可 收敛 到 局 部 最 优 而 非 全 局 最 优 ， 因 此 某 些 情况 下 (如 初始 质心 选取 
不 当 ) 它 可 能 导致 一 些 违反 直觉 的 聚 类 结果 。 比 如 图 25-14 从 左 到 右 迭 代 过 程 并 不 能 拉 
开 左上 角 的 两 个 聚 类 中 心 的 距离 ， 而 左下 角 的 聚 类 则 明显 显得 过 于 庞大 。 


图 25-14 ”初始 质心 选取 会 影响 结果 


K- 均值 算法 在 SAS 里 的 实现 为 PROC FASTCLUS 过 程 步 ， 它 基于 欧 氏 距离 和 最 小 
二 乘 估计 聚 类 中 心 ， 自 动 寻找 最 佳 初始 质心 来 将 观测 分 成 不 同 的 子 集 。K- 均值 算法 并 不 
形成 树 状 聚 类 结构 ， 而 是 划分 为 若干 平等 的 子 集 。K- 均值 算法 还 可 用 来 检查 离 群 值 ， 因 
为 离 群 值 通常 自 成 一 类 而 不 是 跟 别 的 观测 聚集 成 簇 。 

除了 基于 最 小 二 乘法 , PROC FASTCLUS 也 可 以 用 LEAST=P 选项 指定 最 小 概率 法 。 
与 最 小 二 乘法 相 比 ， 一 般 P 值 小 于 2 能 降低 异常 值 对 集群 中 心 的 影响 ， 而 P 值 大 于 2 则 
会 增加 异常 值 的 影响 。 

PROC FASTCLUS 其 系统 耗 时 与 样本 量 n 成 正比 ， 因 此 它 是 一 种 快速 聚 类 方法 ， 可 
用 于 处 理 较 大 规模 的 数据 集 。 实 践 中 一 般 将 它 用 于 较 大 规模 数据 的 预先 处 理 形成 分 区 ， 
然后 使 用 PROC CLUSTER 再 次 聚 类 。 但 对 于 小 数据 量 的 数据 ， 聚 类 结果 可 能 因 初 始 质 
心 的 选择 而 对 样本 出 现 顺 序 敏感 。 而 且 由 于 K- 均值 方法 受 数值 较 大 的 变量 影响 更 大 
通常 需要 对 样本 数据 先 作 标准 化 处 理 。 

程序 25-6 对 演示 数据 进行 K- 均值 聚 类 , 其 中 玉 值 由 最 大 聚 类 数 maxclusters 值 指定 。 
用 户 也 可 指定 选择 新 种 子 的 最 小 距离 radius 来 执行 聚 类 。 

程序 25-6 sas 执行 K- 均 值 聚 类 

proc fastclus data-dl maxclusters-3; 

id id; 

或 

proc fastclus data-dl radius-1; 

id id; 

run; 

SAS 系统 输出 如 图 25-15 所 示 。 

从 图 25-15 输出 中 可 以 看 到 ， 系 统 选择 最 远 的 3 个 点 (2.5, 2.5), (0.5, 1.5). (1.75, 0.75)， 
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即 编号 为 6，2，5 的 3 个 点 作为 初始 种 子 〈 质 心 ) ， 并 最 终 形 成 了 3 ARK 


图 25-16) ， 其 质心 分 别 为 (2.5, 2.5), (0.5, 1.0) 和 (1.58, 0.75). 


| Ces (eem: es (xem) |] sem ssa: | OU 


erc 


图 25-15 FastClus 聚 类 结果 
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K 25-16 聚 类 均值 


为 了 显示 每 个 样本 的 归 类 ， 可 以 使 用 如 下 方法 来 查看 各 聚 类 的 详细 信息 ( 见 程 序 
25-7) 。 首 先 使 用 OUT= 选项 将 PROC FASTCLUS 的 结果 输出 到 数据 集 ( 见 图 25-17) ， 


然后 再 使 用 PROC FREQ 过 程 步 查看 频数 。 
程序 25-7 ”输出 聚 类 详情 


proc fastclus data-dl maxclusters-3 out-dl cls; 
id id; 

run; 

proc freq data-dl cls;; 
tables cluster*id; 

run; 


EEA SASRRAR: 从 程序 员 到 数据 科学 家 
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图 25-17 RMT 


从 图 25-17 中 可 以 看 到 聚 类 1 包含 6 号 样本 ， 聚 类 2 包括 1 号 和 2 号 两 个 样本 ， 聚 
类 3 包括 3 号 、4 号 、5 号 三 个 样本 。 为 了 更 加 直观 地 看 它们 的 分 类 情况 ， 可 以 使 用 程 
序 25-8 的 PROC SGPLOT 来 投影 ， 其 中 聚 类 分 组 CLUSTER 被 使 用 在 SCATTER 语句 的 
GROUP 选项 上 对 不 同 组 用 不 同形 状 的 标记 进行 区 分 ， 结 果 如 图 25-18 所 示 。 


程序 25-8 K-means 结果 分 组 投影 

data attr_map;/* 创 建 属性 表 */ 
input id $ value $ fillcolor $ markercolor $ markersymbol $ ; 
datalines; 

idi 1 CXDE6D00 CXDE6D00 circle 

idi 2 CX00537F CX00537F square 

idi 3 CXc0c0c0 CX00537F star 

run; 

proc sgplot data-dl cls dattrmap=attr_map;/* 用 属性 表 进 行 分 组 */ 
scatter y=y x-x / group-Cluster attrid-idl; 
xaxis min-0 max-3 grid; 
yaxis min-0 max-3 grid; 


run; 
301 
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图 25-18 分 组 投影 
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如 果 待 分 析 的 数据 不 仅仅 包括 x，y 两 个 维度 而 是 包括 三 个 以 上 的 维度 ， 则 可 以 使 
用 典型 判别 分 析 来 进行 降 维 ， 然 后 再 将 结果 投影 在 两 个 主要 指标 上 来 绘制 最 佳 的 划分 图 
像 。 典 型 判别 分 析 是 跟 主 成 分 分 析 和 典型 相关 分 析 有 关 的 降 维 技术 ， 完 整 代码 如 程 
序 25-9 所 示 ， 结 果 输 出 如 图 25-19 所 示 。 


程序 25-9 ”以 SASHELP .CLASS 为 例 用 典型 判别 来 投影 

Proc fastclus data=sashelp.class maxclusters=4 out=class cluster; 
id name; 

run; 


/* 对 K- 均 值 聚 类 结果 进行 典型 判别 分 析 */ 

Proc candisc data=class cluster anova out=class cluster can; 
class cluster; 
Var age height weight 

run; 


data attr_map;/* 创 建 属性 表 */ 
input id $ value $ fillcolor $ markercolor $ markersymbol $ ; 
datalines; 

idl 1 CXDE6D00 CXDE6D00 circle 

idl 2 CX00537F CX00537F square 

idl 3 CXc0c0c0 CX00535F star 

idi 4 CXc0c0c0 CX00532F triangle 


run; 
/* 将 聚 类 投影 在 两 个 主要 主要 指标 上 * / 
proc sgplot data-class cluster can dattrmap-attr map; 
scatter x-Canl y-Can2 / group-Cluster attrid-idl datalabel-name; 
run; 
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图 25-19 检查 聚 类 效果 


在 实践 中 一 般 需 要 对 数据 进行 标准 化 后 才 进 行 聚 类 处 理 。SAS 提供 PROC STDIZE 


完成 对 应 的 工作 〈 见 程序 23-10) 。 
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程序 25-10 ”标准 化 后 与 x 均值 聚 类 

proc stdize data-sashelp.class out-class std method-range; 
var weight height ; 

run; 


proc fastclus data-class std maxclusters-4; 
var weight height; 
run; 


proc delete data-class std; 
run; 


如 要 数据 集中 同时 包含 不 同 的 组 ， 只 需要 简单 引入 分 析 分 组 变量 即 可 〈 见 程 
序 25-11) ， 如 按照 性 别 分 别 进行 聚 类 分 析 ， 系 统 输出 如 图 25-20 所 示 。 


程序 25-11， 按 组 进行 K 均 值 聚 类 
proc sort data-sashelp.class out-data sort; 
by sex; 
run; 
proc stdize data-data sort out-data std method-range; 
var weight height; 
by sex; 
run; 
proc fastclus data-data std maxclusters-4 out-data cluster; 
var weight height; 


by sex; 

run; 

proc delete data-data sort; 

run; 

proc delete data-data std; 

run; 

proc print data-data cluster; 

by sex; 
run; 
eas 
Obs | Name Age! Height | Weight CLUSTER DISTANCE 
1 ERAME 14 079592 | 0.4400 1 022769 
254 14 0.42177 | 0.29104 2 0.06373 
3 ger 12 0.00000 0.00000 3 0.10162 
4 mA 13035374 | 0.01493 2 — 0299 
s "nu 12 011565 024627 3 0.17045 
6 iem 16 1.00000 | 1.00000 4 0.00000 
7 3a% 12 0.51020 | 0.67164 1 015424 
DEZ 15 | 0.65986 | 0.74627 1 /— 012695 
DE 11 001361 | 0.02985 3 006882 
10 ta 15 | 0.62585 | 0.43284 1 018888 
性 到 = 女 


Obs Name Age Height Weight CLUSTER DISTANCE 


m SFS 13 034211 0.54032 1 — 007644 
12 öğ 13 092105 076613 2 0.07903 
173 58 14 0.75658 | 0.83871 2 0.12668 
DE 12 055921 | 0.54839 1 — 015520 
15 Æ — 15 0.73684 1.00000 3 0.13164 
16 7F&E: 11 0.00000 0.00000 4 0.00000 
7 Fis 14 0.85526 0.63710 2 0.11076 
18 SE 12 032895 042742 1 011252 

| 1983 15| 100000 | 0.90194 3 one 


25-20 ”分 组 K- 均值 聚 类 
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25.2.3 ”逐步 形成 分 类 系统 


逐步 形成 分 类 系统 在 数据 标准 化 和 尺度 计算 上 跟 一 次 形成 分 类 系统 本 质 上 没有 什么 
不 同 ， 但 逐步 形成 分 类 系统 在 尺度 矩阵 中 找到 关系 最 近 的 一 对 进行 归 类 后 ， 它 需要 将 这 
两 个 样本 进行 加 权 平均 ， 作 为 一 个 虚拟 的 “新 样本 ”与 其 他 尚未 进行 聚 类 的 样本 一 起 进 
行 后 续 聚 类 ， 直 到 所 有 的 样本 都 被 归 类 为 止 。 

在 代码 实践 中 通常 也 会 定义 一 个 权重 和 矩阵， 如 两 个 样本 i 和. 聚 类 后 ， 设 置 了 的 权重 
28 2, j 的 权重 为 0， 权 重 为 0 的 样本 不 再 参与 后 续 的 分 类 过 程 ， 从 而 保持 尺度 矩阵 的 重 
用 性 。 表 25-2 列 出 了 基于 Min-Max 标准 化 , 采用 欧 氏 距离 逐步 形成 分 类 系统 的 完整 过 程 。 
结果 可 看 出 它 跟 一 次 形成 分 类 系统 结果 基本 一 样 ， 但 样本 之 间 的 距离 与 逐步 合并 样本 计 
算 稍 有 不 同 。 


表 25-2 逐步 形成 分 类 系统 
ERGERGE 

ý 0.559 0.637 

0.559 0.729 

0.250 0.177 

0.000 0.177 

0.177 0.000 

0.901 0.952 
0.000 0.500 0.566 0.559 0.637 1.414 
0.500 0.000 0.713 0.559 0.729 1.118 
0.566 0.713 0.000 0.198 0.088 1.035 
0.559 0.559 0.198 0.000 0.177 0.901 
0.637 0.729 0.088 0.177 0.000 0.952 
1.414 1.118 1.035 0.901 0.952 0.000 

0.559 0.637 

0.559 0.729 

0.132 0.083 

0.000 0.177 

0.177 0.000 

0.901 0.952 

0.500 0.641 

0.576 0.758 

0.149 0.083 

0.000 0.190 

0.190 0.000 

0.992 1.068 


.5]= 0.177 


.4]= 0.198 


,2]= 0.500 


.3]= 0.560 


.6]- 0.992 


ococ-o0oo0vuv-o0oo0oo00v|-.Po0oo0wonu|.o0oo0u--.|.o0r-.nu-^- 
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逐步 形成 分 类 系统 大 多 数 是 自 下 而 上 的 不 断 聚 合 过 程 ， 最 具 代表 性 方法 包括 CURE/ 
ROCK、BIRCH 和 CHAMELEON 方法 : CURE 方法 采用 了 抽样 和 分 区 技术 ， 选 择 数 
据 空间 中 固定 数目 的 代表 性 点 来 代表 相应 的 类 ， 能 识别 复杂 形状 和 不 同 大 小 的 聚 类 ; 
ROCK 方法 是 改进 CURE 以 适用 于 类 别 型 数据 的 方法 ， KARYPIS 等 人 1999 年 提出 的 
CHAMELEON 方法 则 是 同时 考虑 聚 类 之 间 连 通 性 和 相似 性 的 两 阶段 层次 聚 类 算法 ， 聚 
类 过 程 中 使 用 了 动态 建 模 技 术 并 能 够 发 现任 意 大 小 和 形状 的 聚 类 。 

层次 聚 类 在 SAS 中 的 实现 是 PROC CLUSTER 过 程 步 ， 它 一 开始 假定 每 个 样本 自 
成 一 类 ， 然 后 不 断 融 合 直到 全 部 样本 合并 为 同一 个 类 为 止 。 层 次 聚 类 的 耗 时 与 样本 量 
平方 或 立方 成 正比 ， 因 此 对 较 大 规模 的 数据 量 不 太 适 用 。PROC CLUSTER 的 输入 数据 
可 以 是 坐标 或 者 距离 ， 也 可 使 用 PROC DISTANCE 过 程 步 先行 计算 将 距离 作为 PROC 
CLUSTER 的 输入 。 

PROC CLUSTER 过 程 步 可 使 用 OUTTREE= 选项 指定 输出 数据 集 ， 然 后 再 用 PROC 
TREE 过 程 步 的 NCLUSTERS= 选项 来 确定 聚 类 的 阔 值 以 输出 聚 类 成 员 。 

PROC CLUSTER 过 程 步 提 供 11 种 分 层 聚 类 方法 ， 只 要 用 METHOD= 选项 指定 如 
下 任 一 参数 值 即 可 : CENTROID、AVERAGE、SINGLE、COMPLETE、MEDIAN、 
FLEXIBLE、MCQUITTY、WARD、EML、DENSITY 和 TWOSTAGE ， 其 中 DENSITY 
方法 还 包括 3 个 子 方法 : 第 K- 最 近邻 方法 〈 需 用 K= 参数 指定 ) 、 均 匀 密 度 方 法 〈 需 用 
R= 参数 指定 ) 和 王 氏 混合 法 〈 用 HYBRID 指定 ) 。 

在 自 下 而 上 的 层次 聚 类 可 通过 存储 数据 、 存 储 距离 或 者 是 排序 距离 3 种 不 同 算法 来 
实现 凝聚 层次 聚 类 。 在 SAS 中 PROC CLUSTER 的 实现 情况 如 表 25-3 所 列 ， 所 有 的 层 
次 聚 类 方法 都 支持 使 用 坐标 数据 进行 聚 类 ， 而 要 求 使 用 存储 距离 或 者 排序 距离 的 方法 会 
自动 从 坐标 数据 计算 出 距离 来 。 图 25-21 中 CENTROID、AVERAGE 和 WARD 方法 可 
使 用 存储 数据 或 存储 距离 两 种 算法 ; 默认 使 用 存储 数据 的 算法 进行 聚 类 ， 若 输入 数据 是 
距离 数据 ,或 用 户 指定 了 NOSQUARE 选项 , 则 PROC CLUSTER 使 用 基于 存储 距离 算法 ， 
而 最 后 两 种 聚 类 方法 DENSITY 和 TWOSTAGE 只 能 用 排序 距离 算法 。 


表 25-3 ”实现 凝聚 层次 聚 类 的 3 种 算法 
Ho xk 存储 数据 | 存储 距离 | 排序 距离 


对 数 似 然 法 
WARD 最 小 方差 法 离 差 平方 和 法 ) 
质心 


平均 连接 (类 平均 法 ) 
单 连接 


完全 连接 

中 值 方法 中 间距 离 法 ) 

可 变 类 平均 法 

McQuitty 相似 度 

密度 连接 (包括 K- 最 近邻 方法 ) 
两 阶段 密度 连接 


| | | | 
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下 面 对 前 面 演示 数据 集 dl 分 别 用 11 种 方法 进行 聚 类 ， 从 结果 图 中 可 以 看 出 EML 
对 数 似 然 法 和 WARD 最 小 方差 法 类 似 ， 而 Density 密度 连接 法 和 TwoStage 两 阶段 密度 
连接 法 结果 类 似 , 这 两 类 方法 输出 跟 其 他 聚 类 方法 输出 结果 不 同 , 主要 差别 表现 在 编号 3、 
4 以 及 编号 4、5 的 聚 类 形成 上 。 演 示 数 据 集 dl 的 3 种 不 同 聚 类 结果 如 图 25-21 所 示 。 


聚 类 分 析 


6 
proc cluster data- dl 
method-CENTROID; 5 
run; 4. 
3 
2 
1 
0.00 0.25 0.50 0.75 1.00 1.25 
聚 类 质心 之 间 的 距离 
聚 类 分 析 
6 
proc cluster data- dl 
method-WARD ; 5 
run; 4 
X 
2 
1 
0.0 0.2 0.4 0.6 
半 偏 R 方 
聚 类 分 析 
6 
proc cluster data= dl 
method=TWOSTAGE k=3 5 
r=0.3; 4 
run; 
3 
2 
1 
40 30 20 
聚 类 融合 密度 


图 25-21 数据 集 dl 的 3 种 不 同 聚 类 结果 


对 于 聚集 层次 聚 类 生成 的 结果 ， 也 可 以 用 主 成 分 分 析 来 生成 两 个 主要 分 量 ， 然 后 
将 聚 类 结果 投影 在 两 个 主 分 量 的 坐标 空间 中 ， 来 检查 数据 点 彼此 的 分 离 程 度 和 判断 聚 
类 是 否 足 够 有 效 。 程 序 25-12 运行 的 结果 如 图 25-22 所 示 ， 不 同 的 投 点 标记 指示 了 不 
同 的 类 别 。 

程序 25-12 聚 类 分 析 结果 投影 到 主 分 量 空间 

/* 1) 用 【平均 连接 法 】 聚 类 并 输出 谱系 图 */ 

proc cluster data-sashelp.class method-average outtree-class tree; 

var age weight height; 


id name; 
run; 


SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


/* 2) 聚 类 结果 可 以 使 用 proc Tree 进一步 裁剪 (此 时 才 有 cluster 列 ) 和 绘图 */ 


proc tree data-class tree out-class cluster nclusters-4; 
id name; 
run; 


/* 3) 主 成 分 分 析 找到 3 个 主 分 量 prinl,prin2,prin3 */ 

proc princomp data-sashelp.class out-class princomp; 
var age weight height; 

run; 


/* 4) 合并 主 成 分 分 析 和 聚 类 分 析 的 输出 数据 ， 按 名 字 合并 */ 


Proc sort data=class princomp; 


by 
run; 
proc 
by 
run; 
data 


name; 


Sort data-class cluster; 
name; 


class merged; 


merge class princomp class cluster; 
by name; 
run; 


/* 5) 将 聚 类 投影 在 两 个 主要 主要 分 量 上 * / 
data attr_map;/* 创 建 属性 表 */ 


input id $ value $ fillcolor $ markercolor $ markersymbol $ ; 


datalines; 
idl 1 CXDE6D00 CXDE6D00 circle 
idi 2 CX00537F CX00537F square 
idi 3 CXc0c0c0 CX00535F star 
idi 4 CXc0c0c0 CX00532F triangle 
run; 
proc sgplot data-class merged dattrmap-attr map; 


Scatter x-Prinl y-Prin2 / group-Cluster attrid-idl datalabel-name; 


run; 
J 爱丽 丝 cA MNR 
0.5 乔 伊 斯 
A n — ng 威廉 ?玛丽 
罗 伊 斯 。? 亨利 
0.0] 詹姆斯 us 
- EER 0, AERA 
阿尔 弗 雷 德 
Bos. 约翰 
托马斯 。 
口 
-1.04 
-1.54 pee , 
-4 -2 0 2 
Prinl 


CLUSTER?1 52 X3 ^4 


25-22 育 类 分 析 结 果 投 影 到 主 分 量 空间 
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对 聚 类 结果 的 投影 绘图 也 可 使 用 GPLOT 来 完成 〈 见 程序 25-13〉， 只 不 过 输出 的 图 
像 比较 简略 而 已 。 


程序 25-13 聚 类 结果 的 简单 投影 
symboll c-red f=, v-'1'; 
symbol? c-green f=, 
symbol3 c-blue f-, v: 3 
symbol4 c-black f-, v- "ut 
proc gplot data-class merged; 

plot prin2*prinl-cluster; 
run; 


聚 类 分 析 的 最 终结 果 也 可 以 按照 类 别 进行 输出 ， 代 码 如 程序 25-14 所 示 ， 运 行 结果 
如 图 25-23 所 示 。 


程序 25-14 聚 类 结果 按 类 别 输出 

Proc sort data=class merged; 
by cluster; 

run; 

Proc print data=class merged; 
by cluster; 
var name prinl prin2; 


run; 
SAS 系统 
CLUSTER-1 CLUSTER-2 
Obs Name Prin!  Prin2 Obs Name Prin1 Prin2 
1 ARABE 134442 -0.19965 9 | 爱丽 丝 -120046 0.45478 
2 Bn 0.17287 _ -0.22776 10| s 1.18162 | -0.21387 
aza tetee Ere 11 Æ -0.50614 0.23057 
a= mA 12 罗 伊 斯 77682 0.10640 
-1 1 
5 | 玛丽 1.41815 0.43911 
6 nm 141815 | 0.43911 13 £38 -1.81080 -0.67325 
7 Res 0.96795 0.57595 14 | 詹姆斯 -1.50895 -0.08255 
8 Hn -0.89384 -0.56293 15 Fs 0.23001 0.54442 
CLUSTER=3 CLUSTER=4 
Obs Name Prini Prin2 Obs Name Prin!  Prin2 
16 | 菲利普 339388 -0.19374 19 | 乔 伊 斯 -3.40308 0.43003 


17 | 罗伯特 0.50001 | -1.49969 
18,3558 200851 -0.11012 


E 25-23 聚 类 结果 按 类 别 输出 


一 般 而 言 ， 立 方 聚 类 准则 CCC 不 适用 于 不 规则 形状 的 聚 类 和 最 近邻 聚 类 方法 ， 且 
输入 变量 之 间 不 能 有 相关 关系 ， 其 计算 要 求 协 方差 矩阵 存在 特征 值 。 输 出 图 中 每 个 聚 类 
数 大 于 2 的 峰值 都 是 可 选 方案 。 

伪 五 统计 量 则 反映 当前 水 平 下 所 有 类 的 分 离 程度 ， 等 于 类 间距 离 平方 和 了 与 类 内 距 
离 平 方 和 球 比 值 相关 的 统计 量 ， 不 过 它们 需要 除 以 各 自 的 伪 自 由 度 (g-1) 和 Og, 
其 中 g 为 类 别 数 ，n 为 观测 数 。 输 出 图 中 伪 下 统计 量 的 每 个 峰值 都 是 可 选 方案 。 

伪 了 统计 量 反 映 最 近 合 并 的 两 个 类 之 间 的 分 离 程度 ， 用 于 AVERAGE、CENTROID 
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和 WARD 方法 。 

最 佳 聚 类 数目 的 确定 需要 一 定 的 准则 , PROC CLUSTER 过 程 步 可 输出 聚 类 数 准则 ， 
包括 CCC、 伪 和 伪 * 统计 量 以 及 R 方 等 .下 面 以 SASHELPIRIS $E A 
程序 25-15) o 

程序 25-15 输出 聚 类 数 准 则 

Proc cluster data=sashelp.iris method=ward outtree=iris tree 

rsquare ccc pseudo ; 


var SepalLength SepalWidth PetalLength PetalWidth ; 
run; 


在 输出 的 聚 类 数 准则 图 上 ，CCC 大 致 在 3 和 5 附近 形成 波峰 ， 而 伪 下 统计 量 则 在 3 
附近 形成 单一 波峰 ， 伪 妃 则 在 3 或 6 处 有 波 谷 ， 因 此 将 数据 分 成 3~6 类 是 最 合适 的 《〈 见 
25-24) 。 


聚 类 数 准 则 


a 


a CC EM 


NEN 


ò 3 10 1 2 25 30 
聚 类 数 


图 25-24 聚 类 数 准则 判定 


这 一 点 也 可 从 高 尾 花 数 据 的 聚 类 谱系 图 上 直观 看 到 ， 在 作者 标注 的 虚线 上 进行 切割 
可 分 别 获得 3 和 6 个 聚 类 〈 见 图 25-25) 。 


0.2 0.4 0.6 0.8 
图 25-25 聚 类 数 直观 研判 


需要 特别 注意 ， 不 同 的 聚 类 方法 对 同样 的 样本 数据 可 产生 不 同 的 分 析 结 果 。 比 如 使 
用 AVERAGE 方 法 输出 , 其 中 立方 聚 类 准则 CCC 可 以 看 出 推荐 分 类 数 在 3, 5, 6 和 23 附近 ， 
而 伪 下 统计 量 则 指示 分 成 3，4，6 类 为 宜 ， 伪 妃 统 计量 则 指示 分 类 数 在 3 或 4 为 宜 ( 见 
程序 25-15B 和 图 25-26) 。 
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程序 25-15B 不 同 聚 类 方法 的 聚 类 数 准则 

proc cluster data-sashelp.iris method-average outtree-iris tree 
rsquare ccc pseudo ; 
var SepalLength SepalWidth PetalLength PetalWidth ; 


run; 
聚 类 数 准则 
E 44 
F3 
HI 
PEE 
R 14 
Bb 
0 5 10 15 20 25 30 
聚 类 数 
0.00 035 0.50 0.75 1.00 135 


图 25-26 不同 聚 类 方法 的 聚 类 数 准则 〈 虚 线 为 人 为 标记 线 ? 


25.24 R 型 聚 类 分 析 


大 部 分 聚 类 是 对 数据 集 横向 上 的 观测 进行 的 聚 类 ， 称 为 Q 型 分 析 。SAS 默认 的 方法 
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通常 是 先 求 距离 尺度 后 再 进行 层次 聚 类 〈 见 程序 25-16 及 其 输出 结果 图 25-27》: 
程序 25-16 ”Q 型 聚 类 分 析 


Proc distance data=sashelp.class method=dgower out=data dist; 
var ratio(height / std=maxabs) T 
interval (weight / std=std) 
ordinal (age / std-std) 
nominal (sex); 
copy name; 
run; 


proc cluster data-data dist method-ward plots; 
var dist:; 
id name; 

run; 


聚 类 分 析 


| 


0.0 02 04 0.6 
半 偏 R 方 


图 25-27 Q 型 聚 类 分 析 


如 果 要 做 R 型 聚 类 分 析 ， 即 分 析 某 个 数据 集 纵向 上 各 变量 之 间 的 关系 ， 而 不 是 横向 
上 各 样本 之 间 的 关系 。 方 法 之 一 是 先 将 数据 转 置 然后 再 对 数据 执行 Q 型 聚 类 分 析 即 可 。 
比如 以 前 面 最 简单 的 dl 数据 集 为 例 执行 R 型 聚 类 〈 见 程序 25-17) o 


25-17 ” 转 置 数据 后 执行 聚 类 
data dl; 

input id x y 66; 
datalines; 

0.5 0.5 

0.5 41.5 

1.5 0.5 
1.5 1.0 
1.75 0.75 
2.5 2.5 


* Ov o us o I I 


proc print data-dl; 
run; 
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proc transpose data=dl out=d2 prefix-OBS name-id; 
run; 

proc print data-d2; 

run; 


proc cluster data-d? method-centroid; 
id id; 
run; 
转 置 前 后 的 数据 表 和 分 析 结 果 如 图 25-28 所 示 ， 聚 类 显示 样本 编号 id 明显 跟 坐 标 x,y 
不 在 一 个 聚 类 内 ， 大 概 是 因为 x y 变量 用 来 描述 空间 坐标 ， 而 编号 id 只 是 样本 的 索引 ， 
它们 之 间 确 实 没什么 关系 。 


Obs id x y Obs id OBS1 OBS2 OBS3 OBS4 OBSS OBS6 
1| 1/050 050 Tid! 10 20 30 40 | 500 60 
2| 2 050 150 zlx os! 05 15 15 175 25 
3| 3 150 0.50 3ly| os! 15 05 10 075 25 
4| 4 150 1.00 
5 
.0 


6 250 250 us € VT ， 
图 25-28 转 置 数据 的 聚 类 分 析 


R 型 聚 类 分 析 的 第 二 种 方法 是 用 SAS 官方 提供 的 专门 过 程 步 PROC VARCLUS 对 
变量 进行 聚 类 。 比 如 可 对 SASHELPCLASS 的 3 个 数值 变量 进行 聚 类 ， 检 查 变量 age. 
height 和 weight 之 间 的 紧密 程度 〈 见 程序 25-18 及 其 输出 图 25-29) 。 

程序 25-18 对 SASHELP.CLRASS 数据 执行 R 型 分 析 

proc varclus data-sashelp.class hierarchy plots ; 


var age height weight 
run; 


体重 ( 磅 ) RT 


身高 (英寸 ) 


1.000 0.975 0.950 .0.925 0.900 0.875 
已 解释 方差 的 比例 


525-229 默认 R 型 分 析 结 果 


由 于 系统 默认 采用 斜 交 主 成 分 聚 类 ， 而 SASHELP.CLASS 数据 的 计算 中 没有 满足 拆 
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分 准则 的 聚 类 ， 因 此 输出 图 25-29 所 示 的 聚 类 图 ， 似 乎 表示 3 个 变量 之 间距 离 差不多 。 
但 我 们 为 了 仔细 观察 变量 之 间 的 亲 疏 关系 , 可 强行 指定 最 大 聚 类 数 为 3, 运行 分 析 代 码 ( 见 
程序 25-19 及 其 输出 图 25-30), 则 我 们 可 以 看 到 年 龄 自 成 一 类 , 身高 体重 形成 次 一 级 聚 类 ， 
说 明年 龄 相对 而 言 是 更 加 独立 与 身高 体重 的 变量 ， 聚 类 图 与 我 们 直觉 相符 。 

程序 25-19 ”对 SASHELP .CLASS 数据 执行 R 型 分 析 ， 强 制 指定 聚 类 数 为 3 


proc varclus data-sashelp.class hierarchy plots maxc-3 ; 
var age height weight ; 


run; 
H K^ 
du 聚 类 分 析 
体重 ( 磅 ) 
身高 (英寸 ) 
1.000 0.975 0.950 0.925 0.900 0.875 
已 解释 方差 的 比例 


图 25-30 ”强制 聚 类 数目 的 R 型 分 析 


25.3 自己 实现 聚 类 算法 


在 SAS 中 用 户 可 自己 编程 实现 完整 的 聚 类 分 析 算 法 ， 下 面 分 别 以 K- 均值 方法 和 简 
单 逐步 形成 分 类 系统 的 聚 类 方法 为 例 加 以 说 明 。 


25.3.1 K- 均 值 方法 


由 于 FCMP 函数 足以 让 我 们 实现 任何 想 要 的 计算 机 算法 ， 现 在 以 它 来 实现 K- 均值 
方法 所 涉及 的 各 函数 ， 在 函数 中 所 进行 的 计算 都 是 基于 数组 实现 。 为 保证 完整 性 和 可 
执行 性 ， 对 各 函数 的 说 明 嵌 入 到 如 下 代码 注释 中 ， 函 数 编译 后 输出 到 WORK.FUNCS. 
KMEANS 中 。 参 照 前 一 节 图 25-12 的 迭代 过 程 ， 设 计 K- 均值 方法 的 关键 数据 结构 如 图 
25-31 所 示 ， 代 码 见 程序 25-20。 


cluster 


25-31 主要 数据 结构 和 关系 
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程序 25-20 K-Means 的 FCMP 函 数 实现 
proc fcmp outlib-work.funcs.kmeans; 
/*(1) 计算 n 个 样本 d[n,m] 到 k 个 质心 c[k,m] 之 间 的 距离 ,输出 dist[n,k]*/ 
function calcDistanceMatrix(d[*,*],c[*,*], dist[*,*]); 
outarg dist; 
n-dim(d); 
m-dim(d,2); 
k-dim(c); 


if m ^- dim(c,2) then do; 
put 'NOTE: Sample and centroid vector length mismatch'; 
return(.); 

end; 


do i-1 to n; 
do j=1 to k; 
sum-0; 
do mm-1 to m; 
sum-sumt (d[i,mm]- c[j,mm]) **2; 
end; 
dist[i,j]- sqrt (sum); 
end; 
end; 
return (1); 
endsub; 


/*(2) 分 配 阶段 :找到 每 个 点 最 近 的 质心 ， 将 它 归 入 该 聚 类 */ 
function updateClusters(dist[*,*],cluster[*]); 
outarg cluster; 
n-dim(dist); 
k-dim(dist,2); 


if n ^- dim(cluster) then do; 
put 'NOTE: Cluster and distance matrix rows mismatch'; 
return(.):; 

end; 


do i-1 to n; 
min cluster--1; 
min dist-constant ("BIG"); 
do j-1 to k; 
if dist[i,j]«min dist then do; 
min cluster-j; 
min dist-dist[i,j]; 
end; 
end; 
cluster[i]-min cluster;/V* 分 配 聚 类 */ 
end; 
return (1); 
endsub; 


/* 辅 助 函数 : 拷贝 数组 sin] -> tin] 用 于 保存 上 一 次 聚 类 */ 
function CopyArray(s[*], t[*]); 

outarg t; 

n-dim(s); 

if dim(t)«n then return(.); 


do i-1 to n; 
t[il-s[il; 

end; 

return (1); 
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endsub; 


/* (3) 更 新 阶段 : 基于 n 样本 d[n，m] 和 聚 类 cluster[n] 计算 聚 类 质心 c[k,m]*/ 
function updateCentroids(d[*,*], cluster[*], c[*,*]); 
outarg c; 
n-dim(d); 
m-dim(d,2); 
k-dim(c); 
if n ^- dim(cluster) then do; 
put 'NOTE: Cluster and distance matrix rows mismatch'; 
return(.); 
end; 


array count[1] /nosymbols; 
call dynamic array(count, k); 
do i-1 to k; 

count[i]-0; 
end; 


do i-1 to k; 
do j-1 to m; 
c[i,jl-0; 
end; 
end; 


do i-1 to n; 
kk-cluster[i]; 
count [kk]-count[kk]*1; 


do j-1 to m; 
c[kk, jl-c[kk, j] + d[i,jl; 
end; 
end; 


do i-1 to k; 
if count[i]»0 then do; 
do j= 1 to m; 
c[i,j] -c[i,j] / count[i]; 
end; 
end; 
end; 
return (1); 
endsub; 


/* 计 算 已 分 配 类 别 的 组 内 方差 总 和 : 输入 样本 dinm] 质心 c[k,m] 类 别 cluster[n] */ 
function getTotalDistance(d[*,*],c [*,*],cluster[*]); 

n-dim(d); 

m-dim(d,2); 

k-dim(c); 


if m ^- dim(c,2) then do; 
put 'NOTE: Sample and centroid vector length mismatch'; 
return(.); 

end; 


total distance-0; 
do i-1 to n; 
kk-cluster[i]; 
if kk ^- -1 then do; 
sum-0; 
do mm-1 to m; 
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sum-sum* (d[i,mm]- c[ kk,mm])**2; 
end; 
total distance-total distance * sqrt(sum); 
end; 
end; 
return (total distance); 
endsub; 


/* 辅 助 函数 : 检测 类 别 分 配 的 成 员 变 化 数目 ， 如 果 为 零 表 示 没 有 变化 */ 
function getClusterChangeCount (a[*], b[*1):; 
n-dim(a); 
if dim(b)^-n then return(.); 


change count=| 
do i-1 to n; 
if a[i] ^= b[i] then change count-change counttl; 
end; 
return (change count); 
endsub; 


/* K-means 主 函 数 : 聚 类 分 析 的 调用 入 口 ， 基 于 若干 数组 
* WA: 样品 数据 d[n,m] 聚 类 数目 k 
* 输出 : 聚 类 质心 c[k,m] 类 别 归属 ocluster [n] 距离 数据 oDistance [n, m] */ 
function kmeans(d[*,*], k, c [*,*], oCluster[*], oDistance[*]); 
outarg c; 
outarg oCluster; 
outarg oDistance; 


n-dim(d); 


array dist[1,1] /nosymbols; 
call dynamic array(dist, n,k); 


array cluster [1] /nosymbols; 
call dynamic array(cluster , n); 


array cluster orig [1] /nosymbols; 
call dynamic array(cluster orig , n); 


rc-calcDistanceMatrix(d, c, dist); /*(1) 计算 距离 */ 
ret-updateClusters (dist, cluster); /*(2) 分 配 聚 类 */ 


rc=CopyArray (cluster, cluster_orig); /* 提 前 保存 分 类 情况 */ 
total dist orig= constant ("BIG"); 

iteration-l; 

iterationEnd-0; 

do while(iteration«- 1000 AND iterationEnd-0); 


rc-updateCentroids (d, cluster, c);/*(3) 更 新 质心 */ 
total dist- getTotalDistance( d,c, cluster); /* 评 估 效 用 ,是 否 有 改进 ?2*/ 
if total dist <total dist orig then do; 

rc-CopyArray( cluster，cluster_orig) ;/* 提 前 保存 分 类 情况 */ 


rc-calcDistanceMatrix(d, c, dist);/*(1) 计算 距离 */ 
rc-updateClusters ( dist, cluster);/*(2) 分 配 聚 类 */ 


rc-getClusterChangeCount( cluster, cluster orig); 
if rc»0 then do; 
total dist orig-total dist; 
iteration-iterationtl; 
end; 
else do; 
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iterationEnd=1;/* 收 敛 :类 别 不 再 变动 */ 
end; 
end; 
else do; 
/* 终 止 : 没有 改进 则 恢复 上 一 次 结果 并 结束 迭代 */ 
rc-CopyArray( cluster orig, cluster); 
rc-updateCentroids( d, cluster, c); 
iterationEnd-1; 
end; 
end; 
/* 将 结果 输出 到 传 入 的 数组 */ 
rc-CopyArray (cluster,oCluster); 
do i-1 to n; 
oDistance[i]-dist[i, cluster[i]]; 
end; 
return (1); 
endsub; 
run; 
quit; 


程序 25-21 的 代码 演示 了 如 何 调用 自己 开发 的 K-means 聚 类 算法 ， 出 于 比较 的 目的 
演示 程序 使 用 相同 的 演示 数据 集 d1。 


程序 25-21 ， 自 定义 K-Means 算法 实现 演示 程序 


data dl; 
input id x y 606; 
datalines; 

1 0.5 0.5 

2 0.5 1.5 

3 1.5 0.5 

4 1.5 1.0 

5 1.75 0.75 

6 2.5 2.5 


options cmplib-work.funcs; /* 引 用 WORK.FUNCS 函数 库 */ 
data null ; 
/* (1) 读 入 外 部 数据 集 ai 到 二 维 数组 dat[6,2] 中 */ 
array dat[6,2] temporary ; 
array row[2] x y ; 
put 'Data'; 
do i-1 to rows; 
set dl point-i nobs-rows; 
do j-1 to dim(dat,2); 
dat [i,j]=row[j]; 
put dat[i,j] 5.2 @; 
end; 
put; 
end; 


/* (2) 设置 k=3 且 指 定 前 3 个 数据 点 为 初始 质心 */ 
k-3; 
put 'Init Centeroid (k-' k ")"; 
array c[3,2] temporary ; 
do i-1 to k; 
do j= 1 to dim(c,2); 
c[i,jl-dat[i,j]; 
put c[i,j] 5.2 6; 
end; 
put; 
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end; 


/* (3) 准备 数组 接收 结果 */ 

array ocluster[6] temporary ; 

array odistance[6] temporary ; 
rc-kmeans(dat, k, c , ocluster,odistance); 


put "X Y CLUSTER DISTANCE"; 
do i-1 to dim(dat); 
put dat[i,1] 4.2 " " dat[i,2] 4.2 " " ocluster[i] 7.0 " " 
odistance[i] 5.3 ; 


end; 
stop; 

run; 

系统 输出 如 下 : 

Data 

0.50 0.50 

0.50 1.50 

1.50 0.50 

1.50 1.00 

1.75 0.75 

2.50 2.50 

Init Centeroid (k=3 ) 
0.50 0.50 

0.50 1.50 

1.50 0.50 
x Y CLUSTER DISTANCE 
0.50 0.50 1 0.500 
0.50 1.50 1 0.500 
1.50 0.50 3 0.264 
1.50 1.00 3 0.264 
1.75 0.75 3 0.167 
2.50 2.50 2 0.000 


如 果 要 使 用 SAS 的 图 形 过 程 步 对 自 定义 K-Means 算法 输出 进行 绘图 ， 只 需要 将 前 


程序 25-22 将 K-means 结果 输出 到 数据 集 
data d1 cls; /* 修改 : 指定 输出 数据 集 名 称 */ 
/*… 此 处 省 略 准备 数组 和 调用 kmeans 函数 代码 ， 参 考 前 面 代码 */ 


put "X T CLUSTER DISTANCE"; 
do i-1 to dim(dat); 


put dat[i,1] 4.2 " " dat[i,2] 4.2 " " ocluster[i] 7.0 " " odistance[i] 7.5 


MEREM: ERR HEREA 
cluster=ocluster[i]; 
distance=odistance[i]; 
do j=1 to 2; 
row[j]-dat[i,j]; 

end; 
output; 
keep x y cluster distance; 
AERAR 

end; 

stop; 

run; 


面 的 程序 25-21 改动 两 处 即 可 《〈 见 程序 25-22 斜体 部 分 ) ， 其 中 之 一 是 指定 输出 数据 集 
名 称 ， 另 一 处 插入 7 行 代码 即 可 。 
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此 时 就 可 看 到 输出 的 数据 集 DI CLS 如 下 ， 然 后 用 SGPLOT 过 程 步 按照 聚 类 分 组 输 
出 〈 见 程序 25-23) ， 其 中 通过 指定 MARKERCHAR-CLUSTER 将 在 输出 图 上 直接 输出 
聚 类 编号 。 


25-23 ”对 聚 类 输出 数据 集 d1_cls 绘图 

proc sgplot data-dl cls; /* 调 用 SGPLOT 绘图 与 proc fastclus 输出 一 样 */ 
scatter y=y x=x / group=Cluster markerchar=Cluster; 
xaxis min=0 max=3 grid; 
yaxis min=0 max-3 grid; 

run; 


3.01 


2.54 2 


2.0 


0.0 0.5 1.0 L5 2.0 2.5 3.0 


cluster M] 83 N2 
H 25-32 NY K-Means 算法 结果 绘图 


实际 上 ， 可 对 比 自己 实现 的 KK- 均值 方法 跟 SAS 官方 的 KK- 均值 方法 的 结果 ( 见 程 
序 25-24 及 其 输出 图 25-33) ， 发 现 它们 计算 结果 完全 一 样 。 左 侧 为 自己 实现 的 算法 ， 
右 侧 为 PROC FASTCLUS 结果 。 


程序 25-24 ”验证 K- 均 值 算法 实现 的 结果 
proc print data-dl cls; /* 打 印 自 定义 K- 均 值 输出 的 聚 类 结果 */ 
run; 


proc fastclus data=dl maxclusters-3 out-dl cls2; 
id id; 
run; 
proc print data-dl cls2;run; /* 打 印 sas 官方 的 k- 均值 实现 输出 结果 */ 
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Obs x y cluster distance Obs id x y CLUSTER DISTANCE 


1 | 0.50 | 0.50 1, 0.50000 1.1 050 0.50 2 0.50000 
2 0.50 | 1.50 1 0.50000 2| 2 0.50 1.50 2 0.50000 
3| 1.50 | 0.50 3, 0.26352 3| 3 1.50 | 0.50 3 0.26352 
4| 1.50 1.00 3. 0.26352 4| 4 1.50 1.00 3 0.26352 
51.75| 0.75 3 0.16667 5| 5|1.75|0.75 3 0.16667 
6| 250 2.50 2 0.00000 6| 6 250 250 1 0.00000 


图 25-33 对比 输 出 的 聚 类 和 距离 


25.8.0 逐步 形成 分 类 系统 


程序 25-25 为 用 户 自 定义 实现 逐步 聚 类 分 析 方 法 的 完整 代码 ， 其 实现 思路 完全 是 从 
程序 员 和 角度 出 发 。 主 要 包括 3 部 分 。 
(1) 数据 标准 化 Min-Max 标准 化 方法 函数 MaxMinToOne 及 返回 特定 列 极 值 的 函 
数 GetColExtreme。 
(2) 计算 欧 氏 距离 矩阵 函数 EuclideanDistance。 
G) 逐步 形成 聚 类 分 析 主 函数 StepWiseQ 以 及 上 三 角 矩 阵 搜索 函数 FindMinMaxPos。 
注意 其 中 有 个 标志 数组 w 用 于 控制 逐步 凝聚 的 过 程 。 


程序 25-25 自 定义 逐步 形成 分 类 系统 方法 
proc fcmp outlib-work.funcs.stepwise library-funcs; 
/*1) 实现 数据 标准 化 : Min-Max 标准 化 方法 和 辅助 函数 GetComExtreme*/ 
function GetColExtreme (d[*,*],c, bMax); 
cols-dim(d,2); 
if c <= cols then do; 
rows-dim(d,1); 
colextreme-d[1,c]; 
do i-2 to rows; 
if (bMax-0 AND d[i,c]«colextreme) or (bMax-1 AND d[i,c]»colmax) then 
colextreme-d[i,c]; 


end; 
return( colextreme); 
end; 
return (.); 
endsub; 


function MaxMinToOne (d[*,*],0[*,*]); 
outargs o; 
rows-dim(d,1); 
cols-dim(d,2); 


if rows^-dim(o,1) or cols^-dim(o,2) then return(0); 
array colmax[1] /nosymbols; 
call dynamic array(colmax, cols); 
array colmin[1] /nosymbols; 
call dynamic array(colmin, cols); 
do c=1 to cols; 
colmax[c]-GetColExtreme (d, c, 1); 
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colmin[c]-GetColExtreme(d, c, 0); 
if colmax[c]-colmin[c]-0 then return(0); 
end; 
do c-1 to cols; 
do r-1 to rows; 
o[r,c]- (d[r,c]-colmin[c])/(colmax[c]-colmin[c]) ; 
end; 
end; 
return (1); 
endsub; 


/*2) 计算 欧 氏 距 离 矩 阵 : WARA 0 ， 上 下 三 角 对 称 且 [0,1] 越 小 表示 样品 间 越 亲密 */ 
function EuclideanDistance(d[*,*],o[*,*]); 

outarg o; 

n-dim(d,1); 

m-dim(d,2); 

if m-0 then return(0); 


o rows-dim(o,1); o cols-dim(o,2); 
if o rows^-o cols or o rows^-n then return(0); 


do rl-1 to n; 
o[rl, r1]-20; 
do r2-rl*l to n; 
sum-0; 
do c-1 to m; 
diff-d[rl,c] - d[r2,c]:; 
sum-sumt diff * diff; 
end; 
o[rl, r2]-sqrt( sum ); 
o[r2, rl]-o[rl, r2]: 
end; 
end; 
return (1); 
endsub; 


/*3) 逐步 形成 聚 类 分 析 主 函数 StepWiseQ 以 及 搜索 上 三 角 和 矩阵 中 索引 值 不 为 零 的 列 中 的 最 大 /最 小 
值 位 置 FindMinMaxPos*/ 
function FindMinMaxPos(d[*,*], pflag[*], minmaxrow, minmaxcol, bMax); 
outarg minmaxrow; outarg minmaxcol; 


rows-dim(d,1); 
cols-dim(d,2); 


if dim(pflag)^-rows then return(0); 
flag-0; 
do row=1 to rows until (flag-1); 
do col-row*l to cols until (flag-1); 
if pflag[col]^-0 then do; 
minmaxrow-row; 
minmaxcol-col; 
minmaxdat-d[row, col]; 
flag-1; 
end; 
end; 
end; 
if flag-0 then do; 
minmaxrow--1; 
1; 
* 返 回 -1, -1 表示 没有 答案 */ 


minmaxco 
return (0 
end; 
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do row-1 to rows ; 
do col-row*l to cols ; 
if pflag[col]^-0 then do;/* 忽 略 掉 已 选中 的 因子 */ 
if (minmaxdat> d[row, col] and bMax=0) or 
(minmaxdat« d[row, col] and bMax-1) then do; 
minmaxdat- d[row, col]; 
minmaxrow-row; 
minmaxcol-col; 
end; 
end; 
end; 
end; 
return(1); 
endsub; 


function StepWiseQ( d[*,*], pi[*], pj[*], pv[*]); 
outarg pi ; outarg pj; outarg pv; 
rows-dim(d,1); 
cols-dim(d,2); 


array dat[1,1] /nosymbols; 
call dynamic array(dat, rows, cols); 
do r-1 to rows; 
do c-1 to cols; 
dat [r,c]-d[r,c]: 
end; 
end; 


ret-MaxMinToOne(dat,dat); /* 数 据 标准 化 */ 
if ret=0 then return(0); 
array buf[1,1] /nosymbols;/* 为 逐步 分 析 开 辟 中 间 缓 冲 区 */ 


call dynamic array(buf, rows, rows); 


/* 初 始 化 标志 数组 */ 
array w[1] /nosymbols; 
call dynamic array(w, rows); 
do r-1 to rows; 
w[r]-1; 
end; 


ret-EuclideanDistance (dat, buf); 


do index=1 to rows-1; 
/* 根 据 分 类 尺度 , 找 出 关系 最 近 的 一 对 maxi, maxj */ 
ret=FindMinMaxPos (buf, w, maxi, maxj, 0); 
if ret-0 then return (0); 
maxv-buf[ maxi, maxj]; 


/* 得 到 最 小 的 元 素 [31 [j] 归 类 */ 
pi[index]-maxi; 
pj [index]-maxj; 
pv[index]-maxv; 


/* 将 两 行 数据 加 权 平均 */ 
do c-1 to cols; 
dat[maxi, c] -(dat[maxi,c] * w[ maxi] * dat[maxj, c] * w[maxj] ) 
/ (w[maxi] + w[maxjl):; 
end; 
w[maxi]- w[maxi] + w[maxj]; 
w[maxj]-0; 
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ret-MaxMinToOne (dat, dat); /* 数 据 重新 预 处 理 */ 
if ret-0 then return(0); /* 如 果 不 能 成 功 执行 分 析 运 算 */ 
/* 重 新 计算 数据 */ 
ret=EuclideanDistance (dat, buf); 
end; 
return(1); 
endsub; 
run; 
quit; 


而 程序 25-26 则 演示 了 如 何 调用 自己 开发 的 逐步 形成 聚 类 分 析 算 法 : 
程序 25-26 自 定义 逐步 形成 分 类 系统 演示 代码 


options cmplib-work.funcs; 
data dl; 

input x y 88; 

datalines; 


data null ; 
array dat[6,2] temporary ; 
array col[2] xy; 
do i-1 to n; 
set dl point-i nobs-n; 
do j-1 to dim(dat,2); 
dat[i,j]-coll[j]; 
end; 
end; 


array pi[5] temporary ; 
array pj[5] temporary ; 
array pv[5] temporary ; 


ret-StepWiseQ(dat, pi, pj, pv): 


put "谱系 数据 "; 
do k-1 to dim(pv); 

put pi[k] "," pj[k] "=" pv[k] 5.3; 
end; 


运行 上 面 的 代码 将 在 日 志 中 生成 如 下 聚 类 谱系 数据 ， 它 能 够 反映 各 观测 之 间 的 聚合 
顺序 及 其 聚 类 时 的 欧 氏 距离 值 : 
谱系 数据 


5 20.177 
4 =0.198 
2 =0.500 
3 =0.560 
6 =0.992 


p n UU 


第 25 章 聚 类 分 析 [DO 


程序 25-26 只 是 输出 简单 的 文本 信息 ， 为 了 能 在 SAS 中 绘制 聚 类 谱系 图 ， 需 要 修改 
该 程序 ， 将 结果 输出 到 外 部 数据 集 DI TREE 中 ， 然 后 就 可 调用 PROC TREE 来 绘制 聚 
类 谱系 图 。 其 完整 代码 如 程序 25-27 所 示 。 


程序 25-27 ”生成 PROCTREE 结 构 良 好 数据 
data dl tree; /* 指 定 输出 数据 集 名 称 */ 
array dat[6,2] temporary ; 
array col[2] x y ; 
do i-1 to n; 
set dl point-i nobs-n; 
do j-1 to dim(dat,2); 
dat[i,j]-col[jl:; 
end; 
end; 


array pi[5] temporary ; 
array pj[5] temporary ; 
array pv[5] temporary ; 


ret-StepWiseQ(dat, pi, pj, pv); 


put "谱系 数据 "; 
do k-1 to dim(pv); 

put pi[k] "," pj[k] "=" pv[k] 5.3; 
end; 


/* 修 改 开始 : 扩展 如 下 代码 来 生成 PROC TREE 所 需 数据 结构 */ 
length name $ 12; 
length parent $ 12; 
label name = "WREX" 
_parent_= "观测 或 要 类 的 父 级 " 
height -"JE2EHóD 2 EJUS EU; 


array cluster[6] $ temporary ; 
array height[5] $ temporary ; 
.lastheight -0; 


do index-1 to dim(pv); 
.parent id = dim(pv)-index41 ; /* 为 与 SAS JÉBUKHDEIEMRE 5..1*/ 
.parent = trim(left("CL")) || trim(left( parent id )); 


i-pi[index]; 
j-pjlindex]; 


height[ parent id ]- pv[index]; 
if cluster[ i]-" " then do; 


if cluster[ j ]-" " then do; 
.name — i 


cluster[ i ]- parent id ; 
output; 


name — j; 


cluster[ j ] = parent id ; 
height - 0; 
output; 

end; 
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clusterid-cluster[j]; 
do k-1 to dim(cluster); 
if cluster[k]-clusterid then do; 
cluster[k]- parent id ; 
end; 
end; 


. name =i; 

cluster[ i ]- parent id ; 

. height -height[ clusterid ]; 
output; 


.name = trim(left("CL")) || trim(left(clusterid)); 
cluster[ j ]- parent id ; 
.height = 0; 
output; 
end; 
end; 
else do; 
if cluster[ j ]-" " then do; 
clusterid-cluster[i]; 
do k-1 to dim(cluster); 
if cluster[k]-clusterid then do; 
cluster[k]- parent id ; 
end; 
end; 


.name = trim(left("CL")) || trim(left(clusterid)); 
cluster[ i ]- parent id ; 

height = height[ clusterid ]; 

output; 


name = j; 
cluster[ j ]- parent id ; 
height = 0; 
output; 
end; 
else do; 
clusterid-cluster[i]; 
do k-1 to dim(cluster); 
if cluster[k]-clusterid then do; 
cluster[k]- parent id ; 
end; 
end; 


.name = trim(left("CL")) || trim(left(clusterid)); 
cluster[ i ]- parent id ; 

. height - height[ clusterid ]; 

output; 


clusterid-cluster[j]; 
do k-1 to dim(cluster); 
if cluster[k]-clusterid then do; 
cluster[k]- parent id ; 
end; 
end; 


name = trim(left("CL")) || trim(left(clusterid)); 
cluster[ j ]- parent id ; 

height = height[ clusterid ]; 

output; 


LE EE LIES 


end; 

end; 

 lastheight -pv[index]; 
end; 
name = trim(left("CL")) || trim(left(1)): 
.parent =" "; 
height = lastheight ; 
output; 


keep name parent height ; 
/* 修 改 结束 */ 
stop; 

run; 

proc tree data-dl tree; 

run; 


运行 该 代码 调用 PROC TREE 后 输出 的 聚 类 结果 如 图 25-34 所 示 。 


1.00 


2 3 4 5 
观测 或 聚 类 的 名 称 
图 25-34” 聚 类 谱系 图 (默认 ) 


与 前 面 自 定 义 实现 的 逐步 聚 类 方法 等 价 的 SAS 程序 如 下 所 示 〈 见 程序 23-29) ， 输 出 
具有 完全 相同 的 拓扑 结构 ， 但 距离 的 具体 计算 上 稍 有 不 同 〈 见 图 25-35 和 图 25-36) 。 


N 


w 


u 


观测 或 聚 类 的 名 称 


ES 


6 


00 01 02 03 04 05 06 07 08 09 10 
聚 类 质心 之 间 的 距离 
图 25-35 RERE RH) 
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1.50 


1 2 3 5 4 6 
观测 或 聚 类 的 名 称 


图 25-36 ”逐步 层次 聚 类 输出 的 谱系 图 


车 要 生成 坐标 轴 为 横向 的 聚 类 谱系 图 ， 可 在 PROC TREE 上 添加 HORIZONTAL X 
项 ( 见 程 序 25-28) 。 


程序 25-28 ”生成 横向 聚 类 谱系 图 
proc tree data-dl tree horizontal; 
run; 


程序 25-29 ”数据 科学 家 版 本 的 逐步 层次 聚 类 
data dl; 

input id x y @@; 

datalines; 


proc cluster data-dl method-centroid outtree-dl tree; 
id id; 


data dl tree; 
set dl tree; 
keep name parent height ; 
run; 
proc tree data-dl tree 
run; 


附录 : 聚 类 度量 的 自 定 义 实 现 


proc fcmp outlib-work.funcs.measure library-funcs; 
/* 距离 1: 曼哈顿 距离 */ 
function ManhattanDistance (d[*,*],o[*,*]); 
outarg o; 
n-dim(d,1); m-dim(d,2); 
if m-0 then return(0); 
o rows-dim(o,1); o cols-dim(o,2); 
if o rows^-o cols or o rows^-n then return(0); 


do rl-1 to n; 
o[rl, r1]-0; 


= d[r2,e]2 
sum-sum* abs (diff); 
end; 
o[rl, r2]= sum; 
o[r2, rl]-o[r1l, r2]: 
end; 
end; 
return (1); 
endsub; 


/* 距离 2: 欧 氏 距离 */ 
function EuclideanDistance(d[*,*],o[*,*]); 
outarg o; 
n-dim(d,1);m-dim(d,2); 
if m-0 then return(0); 
o rows-dim(o,1); o cols-dim(o,2); 
if o rows^-o cols or o rows^-n then return(0); 


do rl-1 to n; 
o[rl, r1]-0; 
do r2-rl41l to n; 
E ; 
do c-1 to m; 
diff-d[rl,c] - d[r2,c]:; 
sum-sumt diff * diff; 
end; 
o[rl, r2]-sqrt( sum 9); 
o[r2, rl]-o[r1, r2]: 
end; 
end; 
return (1); 
endsub; 


/* 距 离 3: 切 比 雪夫 距离 */ 
function ChebyshevDistance (d[*,*],o[*,*]); 
outarg o; 
n-dim(d,1); m-dim(d,2); 
if m-0 then return(0); 
o rows-dim(o,1); o cols-dim(o,2); 
if o rows^-o cols or o rows^-n then return(0); 


do rl-1l to n; 
o[rl, r1]-0; 


第 25 章 聚 类 分 析 H 


AT SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


do r2 =r1+1 to n; 
maxdiff-0; 
do c-1 to m; 
diff-abs(d[rl,c] - d[r2,c]):; 
if diff»maxdiff then maxdiff-diff; 
end; 
o[rl, r2]- maxdiff; 
o[r2, rl]-o[r1, r2]; 
end; 
end; 
return (1); 
endsub; 


/* 距离 4: 闵 氏 距离 : p=1 曼哈顿 ，p=2 欧 氏 ，2-> 无 穷 切 比 雪夫 距离 
function MinkowskiDistance (d[*,*],o[*,*],p); 

outarg o; 

n-dim (d, 1) ;m=dim (d, 2) ; 

if m=0 then return (0); 

o rows-dim(o,1); o cols-dim(o,2); 

if o rows^-o cols or o rows^-n then return(0); 


do rl-1 to n; 
o[rl, r1]-20; 
do r2-rl*lto n; 
sum-0; 
do c-1 to m; 
diff-d[rl,c] - d[r2,c]:; 
sum-sumt abs(diff) ** p; 
end; 
o[rl, r2]- sum ** (1/p):; 
o[r2, rl1]-o[rl, r2]: 
end; 
end; 
return (1); 
endsub; 


/* 相 似 性 : 余弦 相似 性 系数 */ 
function CosineSimilarity (d[*,*],o[*,*] ) 7 
outarg o; 
n-dim(d,1); m-dim(d,2); 
if m-0 then return(0); 
o rows-dim(o,1); o cols-dim(o,2); 
if o rows^-o cols or o rows^-n then return(0); 


do rl-1 to n; 
do r2-rl41 to n; 

sum-0; sum2-0; sum3-0; 

do c-1 to m; 
sum-sum + d[rl,c] * d[r2,c] 
sum2-sum2* d[rl,c] * d[rl,c] 
sum3-sum3* d[r2,c] * d[r2,c] 

end; 

if sum2-0 or sum3-0 then return(0); 

o[rl, r2]- sum / (sqrt(sum2) * sqrt(sum3)); 

o[r2, rl]-o[rl, r2]: 


end; 
o[rl, r1]-0; 
end; 
return (1); 
endsub; 


/* 相 关 性 : 皮尔 逊 相关 系数 */ 


Ay 
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function PearsonR(d[*,*],o[*,*]); 
outarg o; 
n-dim(d,1); m-dim(d,2); 
if m-0 then return(0); 
o rows-dim(o,1); o cols-dim(o,2); 
if o rows^-o cols or o rows^-n then return(0); 


array mean col[1] /nosymbols; 
call dynamic array (mean col, m); 
do row-1l to n; 
sum-0; 
do c-1 to m; 
sum-sum*d[row,c]; 
end; 
mean col[row]-sum/n; 
end; 
do rl-1 to n; 
do r2- rl*l to n; 
sum-0;suml-0; sum2-0; 
do c-1 to m; 
sum -sum *(d[rl,c] -mean col[rl]) * (d[r2,c]-mean col[r2]); 
suml-suml*(d[rl,c] -mean col[rl]) * (d[rl1,c]-mean col[rll); 
sum2-sum2*(d[r2,c] -mean col[r2]) * (d[r2,c]-mean col[r2]); 
end; 
if suml-0 or sum2-0 then return(0); 
o[rl, r2]-sum / sqrt( suml * sum2); 
e[r2, ri]-o[ri, r2]; 


end; 
o[rl, rl]-1; 
end; 
return (1); 
endsub; 


/* 相 似 性 : Jaccard 相似 性 系数 */ 
function JaccardSimilarity(d[*,*],o[*,*]); 
outarg o; 
n-dim(d,1); m-dim(d,2); 
if m-0 then return(0); 
o rows-dim(o,1); o cols-dim(o,2); 
if o rows^-o cols or o rows^-n then return(0); 


p-0; q-0; r-0; 
do c-1 to m; 
if d[rl,c] = d[r2,c] then do; 
if d[rl,c]-1 then p-p*l; 
end; 
else do; 
if d[rl,c] = 1 then q-q*1; 


L] 


if d[r2,c] 
end; 
end; 
o[rl, r2]- p / (qtptr); 
o[r2, ri]-o[rl, r2]; 
end; 
end; 
return (1); 
endsub; 


1 then r-r*1; 


神经 网 络 


既 有 科学 研究 表明 ， 人 类 大 脑 包含 约 1000 亿 个 神经 元 细胞 ， 神 经 元 细胞 之 间 相 互 
连接 组 成 神经 网 络 。 神 经 网 络 的 基础 是 神经 元 细胞 ， 但 它们 并 不 直接 接触 ， 神 经 元 之 
间 有 一 个 称 为 “ 突 触 ” 的 部 分 彼此 隔离 〈 见 图 26-1) 。 大 脑 工作 时 ， 各 神经 元 处 理 
信息 后 会 通过 这 个 连接 网 络 进行 信息 交换 ， 即 电化 学 信号 传递 。 如 果 两 个 神经 元 之 
间 的 “连接 ” 足够 强烈 ， 电 化 学 信号 就 会 从 一 个 细胞 体 的 轴 突 传递 到 另 一 个 神经 元 
的 树 突 : 树 突 收 集 其 他 神经 元 的 信号 输入 ， 只 有 当 信 号 达到 特定 阐 值 时 ， 神 经 元 才 会 
输出 一 个 响应 信号 ， 并 通过 轴 突 将 它 传递 给 其 他 神经 元 ， 从 而 实现 信号 在 神经 元 网 络 
中 的 传播 。 


图 26-1 ”神经 元 示意 图 


人 类 之 所 以 能 够 思考 ， 就 是 因为 神经 元 之 间 构 成 的 网 络 能 够 对 外 界 刺激 做 出 反应 。 
外 部 刺激 通过 神经 末梢 转化 为 电化 学 信号 ， 而 电化 学 信号 可 通过 轴 突 传递 给 别 的 神经 元 
做 进一步 处 理 ， 直 至 输出 最 终 控制 信号 对 外 部 产生 反应 。 

计算 机 领域 的 神经 网 络 又 称 人 工 神 经 网 络 ， 它 起 源 于 用 计算 逻辑 模仿 人 类 大 脑 的 工 
作 方 式 。 在 讲述 本 章 神经 网 络 之 前 ， 请 简单 回顾 一 下 人 工 神经 网 络 的 简要 发 展 历史 ， 它 
大 致 包括 20 世 纪 60 年 代 的 控制 论 、80 年 代 中 期 的 联结 主义 以 及 2006 年 以 来 的 深度 学 习 。 

1943 年 ， 神 经 科学 家 Warren McCullock 和 逻辑 学 家 Walter Pitts 在 合作 论文 中 基于 
数学 和 闵 值 逻辑 算法 提出 以 他 们 名 字 首 字母 命名 的 第 一 个 人 工 神经 元 模型 一 一 MCP 模 
型 。 该 模型 将 神经 元 处 理 信息 抽象 为 输入 信号 的 线性 加 权 ， 内 积 运算 与 二 值 激 活 等 几 个 
步骤 ， 从 而 开启 了 机 器 智能 研究 的 大 门 。 不 过 需要 指出 的 一 点 是 ， 此 时 人 类 的 第 一 台 计 
算 机 (1946 ENIAC) 还 尚未 诞生 。 

1957 Æ, Frank Rosenblatt 发 明 感 知 器 算法 (Perceptron Algorithm) ， 它 使 用 MCP 
模型 对 输入 的 多 维 数据 进行 二 分 类 ， 且 能 够 使 用 梯度 下 降 方法 从 训练 样本 中 学 习 并 修正 
神经 网 络 权 重 。 感 知 器 算法 是 单 层 感知 器 ， 该 算法 于 1962 年 在 理论 上 被 证 明 能 够 收敛 ， 
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引发 神经 网 络 的 第 一 次 浪潮 。1959 年 ， MIT 人 工 智 能 项 目 联合 创始 人 John McCarthy 
首次 提出 了 “人 工 智能 ” 一 词 ， 但 1969 年 美国 人 工 智 能 先驱 、 图 灵 奖 获得 者 Marvin 
Minsky 在 其 著作 中 证 明 感 知 器 本 质 上 是 一 种 只 能 处 理 线性 分 类 问题 的 线性 模型 ， 它 甚至 
不 能 处 理 逻 辑 抑或 “XOR” 这 一 问题 而 导致 神经 网 络 研究 近 20 年 的 低潮 期 。 

1986 年 ，Geoffrey Hinton 发 明 能 够 用 于 多 层 感 知 器 (Multi-Layer Perceptron, MLP) 
的 反 向 传播 算法 (Backward Propagation Algorithm, BP 算法 ) ， 它 采用 Sigmoid 函数 作 
为 激活 函数 进行 非 线 性 上 映射， 突破 了 神经 网 络 的 线性 模型 局 限 ， 解 决 了 非 线性 映射 和 学 
习 问 题 。1989 年 ， 加 州 大 学 的 Robert Hecht-Nielsen 证 明了 多 层 感 知 器 的 万 能 逼近 定 
理 : 对 于 任何 闭 区 间 内 的 一 个 连续 函数 都 可 以 用 包括 一 个 隐藏 层 的 BP 网 络 来 逼近 。 
现 已 知 3 层 (包括 输入 层 ) 的 神经 网 络 可 表示 任意 布尔 函数 ， 当 隐藏 层 使 用 Sigmoid 
或 其 他 非 线性 单元 ， 输 出 层 使 用 线性 单元 时 ，3 层 的 神经 网 络 可 逼近 任意 一 个 连续 函 
数 ， 此 时 隐藏 层 单元 的 个 数 则 取决 于 待 逼 近 的 函数 ， 如 果 再 增加 一 个 使 用 Sigmoid 单 
元 的 隐藏 层 ， 即 4 层 的 神经 网 络 可 对 任意 函数 在 局 部 以 任意 精度 逼近 。1989 年 Yann 
LeCun 发 明了 卷 积 神经 网 络 LeNet 并 在 数字 识别 项 目 实践 中 取得 较 好 效果 ， 但 后 来 由 
于 1991 年 BP 算法 被 指出 在 误差 反 向 传递 过 程 中 存在 梯度 弥散 问题 一 一 即 乘 性 方式 全 
加 到 前 层 时 ，Sigmoid 函数 因 饱 和 性 会 导致 本 来 就 很 小 的 梯度 传递 到 前 层 时 几乎 为 零 ， 
因而 无 法 对 前 层 进行 有 效 的 学 习 。 梯 度 弥 散 问题 导致 神经 网 络 领域 的 研究 再 次 降温 。 

2006 年 ，Hiton 提出 使 用 无 监督 预 训练 对 权重 值 进行 初始 化 ， 然 后 采用 有 监督 的 训 
练 微调 神经 网 络 权重 的 思想 ， 成 功 解决 了 深度 神经 网 络 中 的 梯度 弥散 问题 ， 引 发 了 深度 
学 习 的 快速 发 展 时 代 。2011 年 能 有 效 抑止 梯度 消失 问题 的 ReLU 激活 函数 被 提出 ， 微 软 
首次 将 深度 学 习 应 用 于 语音 识别 取得 重大 突破 ， 引 发 了 深度 学 习 〈Deep Learning) ff] 
究 热 潮 。2012 年 ，Hinton 课题 组 通过 采用 完全 有 监督 的 学 习 方法 构建 卷 积 神经 (CNN) 
网 络 AlexNet， 参 加 ImageNet 图 像 识 别 大 赛 充分 证 明了 深度 学 习 的 极 大 潜力 ， 使 卷 积 神 
经 网 络 大 放 异 彩 。2015 ££, Hinton, LeCun, Bengio 等 论证 (但 尚未 严格 理论 证 明 ) 了 局 
部 极 值 对 深度 学 习 网 络 的 影响 在 批量 梯度 下 降 优化 方法 中 作用 非常 有 限 ， 结 合 GPU 运 
算 和 并 行 计算 在 工程 实践 中 使 得 深度 学 习 研 究 持续 火热 。 但 时 至 今日 ， 如 何 从 少量 数据 
中 生成 良好 的 人 工 神经 网 络 依然 是 一 大 挑战 。 

研究 神经 网 络 有 两 个 重要 原因 : 一 是 了 解 人 类 大 脑 的 工作 机 理 ; 二 是 尝试 构建 能 够 
解决 一 些 传统 操作 型 计算 机 无 法 解决 的 复杂 问题 ， 尤 其 是 不 确定 性 问题 。 现 在 已 经 知道 
神经 网 络 能 够 从 大 量 的 训练 样本 中 学 习 并 处 理 各 种 误差 ， 但 在 神经 网 络 发 明之 前 ， 传 统 
的 计算 机 都 工作 在 确定 性 的 计算 操作 步骤 之 上 ， 整 个 系统 可 能 因 单 个 逻辑 错误 导致 系统 
无 法 工作 。 


26.1 神经 元 模型 


最 早 的 人 工 神经 元 模型 被 称 为 感知 器 (Perceptron) 模型 ( 见 图 26-2) ， 它 能 够 接 
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受 多 个 输入 信号 osx, tns * 产 生 一 个 输出 信号 y， 感 知 器 模拟 的 是 生物 神经 元 能 够 接受 
多 个 输入 信号 并 在 特定 条 件 下 产生 一 个 输出 信号 的 基本 原理 。 


26-2 ”人 工 神经 元 (感知 器 ) 


最 简单 的 模型 就 是 每 个 输入 都 是 0 或 者 1， 分 别 表示 某 个 条 件 成 立 与 否 ， 如 果 是 0 
表示 某 个 条 件 不 成 立 ， 如 果 是 1 表示 某 个 条 件 成 立 。 比 如 ， 我 们 需要 做 一 个 明天 去 拜访 
朋友 的 决定 ， 可 以 考虑 如 下 几 个 因素 : xm= 朋友 是 否 在 家 ? v= 自己 是 否 有 空 ? xQ XA 
是 否 适合 出 行 ? 而 输出 则 只 有 一 个 : y= 去 还 是 不 去 ? 

但 更 常见 的 情况 是 ， 各 种 输入 的 重要 性 是 不 同 的 。 比 如 有 些 输入 条 件 是 决定 性 因 
素 ， 而 另外 有 些 条 件 则 是 可 选 因素 。 因 此 在 思考 综合 各 种 输入 条 件 做 出 决策 时 ， 不 同 
的 输入 对 结果 的 影响 不 一 样 的 。 如 果 权 重 为 0 则 表示 对 结果 没有 影响 ， 如 果 权 重 是 1 
表示 该 输入 对 结果 影响 最 大 。 比 如 我 们 要 科学 选拔 外 贸 人 才 ， 需 综合 考查 候选 人 数学 
和 英语 的 能 力 。 鉴 于 英语 是 最 更 要 的 涉外 沟通 工具 ， 我 们 设 定 英语 的 权重 为 0.6， 数 
学 为 0.4 。 现 在 某 候选 人 A 成 绩 为 : 英语 80， 数 学 90， 我 们 可 根据 成 绩 计 算出 某 个 综 
合 指标 z=0.6X80+0.4X90=84。 而 候选 人 B 的 成 绩 为 英语 90， 数 学 80， 其 综合 指标 
z=0.6 X 90+0.4X 80=86。 现 在 我 们 根据 综合 指标 z 设 定 录取 线 为 85， 则 我 们 会 录取 候选 
人 B， 而 不 是 A。 录 取 线 85 相当 于 一 个 阐 值 ， 只 要 输入 的 综合 指标 大 于 等 于 阔 值 就 输出 
1 表示 录取 ， 否 则 输出 0 表示 不 录取 。 这 个 过 程 抽象 成 决策 模型 如 图 26-3 所 示 。 


X 
1 wi 


=threshold 
b4 
w, 


263 ”决策 模型 


实际 上 ， 上 面 这 个 感知 器 模型 wx wx, > threshold fI wx, + w,x,< threshold 反映 的 
是 由 六 AU o, FE EP TET E REI — RR ELA wo x, threshold 划 出 的 两 个 区 域 。 因 此 
对 于 给 定 变 量 空间 中 的 一 个 点 Qa. x%)， 这 个 感知 器 可 以 告诉 我 们 该 点 在 平面 上 直线 的 哪 
一 个 区 域 ， 这 些 区 域 被 称 为 线性 可 分 区 域 。 写 成 通用 的 数学 表达 为 

0 if? wx, < threshold 
F p if wx; Z threshold 
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为 进一步 简化 模型 ， 我 们 可 将 输入 信号 x, x, tox 表示 为 向 量 ， 称 为 该 感知 器 
的 输入 向 量 ， 权 重 w, w, …, wi 表示 为 不 ， 称 为 感知 器 的 权重 向 量 ; 将 按 权 重 求 和 运算 
wz 表示 为 W*X, 同时 将 阔 值 threshold 作为 一 个 常数 项 考虑 ， 假 设 b— -threshold， 
则 上 面 的 数学 表达 可 以 进一步 表示 为 
0 ifWX+b<0 
> if W-X+b>0 
上 面 的 模型 就 是 单个 感知 器 构成 的 决策 模型 ， 但 现实 世界 中 的 决策 模型 远 比 这 个 复 
杂 ， 因 此 需要 构建 一 个 由 多 个 感知 器 节点 组 成 的 网 络 ， 称 为 人 工 神经 网 络 。 实 践 证 明 ， 
基本 布尔 运算 中 的 AND、OR、NOT 运算 都 是 线性 可 分 的 〈 见 图 26-4) ， 只 需要 单个 感 
知 器 就 足以 完成 判定 , 而 XOR 运算 则 不 是 线性 可 分 的 ， 它 需要 由 多 个 感知 器 构成 的 “ 神 
经 网 络 ” 来 实现 。 


AND OR NOT XOR 


1 1 | 1 
ab 0 0 oj 0| 
1/7 f a 5- M 
图 26-4 感知 器 划分 线性 可 分 区 域 


为 统一 模型 ， 将 输入 信息 和 输出 信息 也 作为 神经 网 络 中 的 一 种 特殊 节点 ， 用 输入 层 
和 输出 层 表 示 。 构 成 人 工 神经 网 络 的 神经 元 之 间 可 以 有 多 种 连接 形式 ， 其 中 感知 器 分 层 
排列 的 前 馈 神经 网 络 (Feed-Forward Network) 是 最 常见 人 工 神经 网 络 ， 它 由 一 个 输入 
层 (Input Layer) 、 若 干 个 隐藏 层 (Hidden Layer) 和 一 个 输出 层 (Output Layer) 组 成 ( 见 
图 26-5) 。 其 中 输入 层 节点 仅 用 于 接收 输入 信号 ， 输 出 层 用 于 产生 输出 ， 而 中 间 的 隐藏 
层 则 由 模仿 神经 元 的 感知 器 节点 组 成 ， 每 一 层 的 节点 可 以 输出 信号 到 下 一 层 节 点 ， 同 层 
节点 之 间 没 有 连接 ， 而 不 同 层 节点 之 间 的 连接 权重 代表 它们 的 连接 强度 。 


图 26-5 ”前 馈 神 经 网 络 


图 26-5 中 每 个 感知 器 依然 遵从 多 个 输入 信号 一 个 输出 信号 的 基本 模式 。 但 一 个 输出 
信和 号 可 以 被 后 面神经 网 络 层 的 多 个 节点 所 接收 ， 成 为 后 层 节点 的 输入 信和 号。 现实 中 不 是 
所 有 的 信号 都 是 逐 层 从 前 往 后 传播 ， 如 果 后 面 的 神经 网 络 节点 的 输出 会 被 传递 给 前 面 的 
节点 ， 则 构成 信号 的 循环 传递 机 制 ， 则 称 这 种 人 工 神经 网 络 为 递归 神经 网 络 CRecurrent 
Neural Network) ， 但 最 常见 的 神经 网 络 还 是 前 馈 神 经 网 络 。 
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如 图 26-6 所 示 ， 神 经 网 络 构建 了 一 个 输入 数据 蕊 和 输出 数据 ?之 间 的 关系 ， 然 而 
神经 网 络 模型 中 的 权重 刺 以 及 阔 值 六 依然 是 未 知 数 。 为 了 寻找 恰当 的 权重 WARRE b, 
需要 用 已 知 的 输入 数据 蕊 和 对 应 的 输出 数据 ?来 不 断 调整 权重 和 阔 值 ， 直 到 神经 网 络 对 
于 所 有 给 定 的 已 知 数据 都 能 满足 上 面 的 方程 ， 这 个 过 程 通俗 地 称 为 模型 训练 。 此 时 构建 
模型 问题 就 变 为 如 何 调整 权重 Ar 使 得 神经 网 络 能 反映 从 已 有 数据 中 学 习 到 的 经 验 值 。 


任 一 权重 w 的 微小 变动 Aw 
可 导致 输出 的 微小 变动 Ay 


图 26-6 权重 更 新 与 输出 更 新 的 关系 


从 前 面 的 探讨 可 知 感知 器 的 输出 y 为 0 或 1， 但 实际 上 按 权重 求 和 W e XA 
(- o, co y} 区 间 上 的 任意 实数 值 。 为 了 模拟 生物 神经 网 络 的 阐 值 控制 ， 使 感知 器 能 够 输 
出 一 个 非 线性 的 输出 信号 ， 实 现 从 连续 值 域 到 离散 数值 的 映射 ， 需 要 引入 激活 函数 的 概 
念 。 实 际 上 ， 如 果 神 经 网 络 没 有 激活 函数 它 就 跟 普 通 线性 结构 没什么 区 别 ， 因 此 人 工 神 
经 网 络 要 引入 非 线 性 处 理 能 力 ， 激 活 函数 是 绕 不 开 的 关键 一 步 。 激 活 函 数 可 以 是 线性 函 
ŽO BEER S 函数 ， 其 中 Sigmoid(x) 函数 最 为 常见 。 

假定 感知 器 线性 加 权 求 和 结果 为 z， 其 中 z= W e Xb。 我 们 引入 激活 函数 y=f(z) 

y= f(z)= 1 


l+e” 
其 中 = 的 取 值 从 负 无 穷 到 正 无 穷 ， 而 函数 输出 值 y 则 为 0 到 1 之 间 的 一 个 值 ， 恰 好 
与 概率 值 的 值 域 [0, 1] 匹配 。 如 果 z 取 值 趋向 于 正 无 穷 ， 激 活 函 数 取 值 趋向 于 l, K 
示 输 出 信和 号 非常 强烈 ， 如 果 = 取 值 趋向 于 - c， 则 激活 函数 取 值 趋向 于 0， 表 示 信 和 号 非 
常 微弱 。 Sigmoid 函数 y=fz)=1(1+e ) 的 函数 曲线 如 图 26-7 所 示 。 


1 


0.5 


-6 -4 -2 0 2 4 6 
图 26-7 Sigmoid 激活 函数 


Sigmoid 函数 有 近乎 线性 和 非 线性 的 特性 ， 由 于 该 曲线 函数 的 输出 值 落 在 (0. 1) 之 间 
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而 被 经 常 作 为 阔 值 函数 使 用 于 神经 网 络 。 本 质 上 ， 激 活 函 数 就 是 将 神经 网 络 中 前 一 层 的 
输出 累积 后 ， 将 数值 投影 到 0~1 之 间 。 对 于 Sigmoid 函数 ， 数 学 上 已 经 证 明 其 输出 的 微 
小 改变 量 与 权重 和 闵 值 的 微小 改变 量 之 间 存 在 如 下 数学 关系 ， 而 这 种 关系 可 采用 链 式 法 
则 来 计算 偏 导数 ， 从 而 实现 反 向 误差 传播 机 制 。 
Ay x Ean ab 

实际 上 ， 可 使 用 很 多 别 的 数学 函数 作为 非 线性 激活 函数 ， 如 双 曲 正切 函数 TanH、 
HardLim 等 ， 其 中 Tan-Sigmoid 函数 ?= /(2) - SE 也 比较 常用 。 不 同 的 激活 函数 
可 以 解决 不 同 的 问题 ， 如 果 神 经 网 络 用 于 线性 函数 逼近 ， 输 出 层 节点 使 用 线性 函数 
y-fa)-x 即 可 ， 如 果 神 经 网 络 用 于 分 类 ， 一 般 会 使 用 Sigmoid 函数 。 编 程 中 需要 注意 激 
活 函数 在 偏 导数 计算 和 反 函 数 计算 中 的 不 同 。 图 26-8 反映 了 内 积 之 后 利用 Sigmoid 进行 
非 线性 激活 的 感知 器 模型 。 


上 一 层 下 一 层 


图 26-8 "aec" 


26.2 神经 网 络 


对 于 一 个 神经 网 络 ， 通 过 对 已 知 训练 数据 进行 学 习 ， 当 训练 数据 量 足 够 多 时 ， 网 络 
就 能 积累 足够 多 的 “经 验 ”。 然后 利用 该 网 络 就 能 对 未 知 输入 数据 进行 有 效 的 分 类 或 聚 类 ， 
甚至 发 现 数据 中 蕴含 的 新 趋势 。 神 经 网 络 能 够 对 训练 数据 进行 两 种 方式 的 学 习 : 有 监督 
的 学 习 和 无 监督 的 学 习 ， 有 监督 的 学 习 就 是 训练 数据 集中 的 输出 结果 已 预先 知道 ， 而 无 
监督 学 习 则 是 输入 数据 对 应 的 输出 结果 完全 未 知 。 

对 于 输出 结果 已 知 的 有 监督 学 习 ， 则 往往 对 前 馈 神 经 网 络 利用 反 向 传播 算法 进行 处 
理 ， 用 于 对 数据 进行 分 类 ; 有 监督 的 意思 是 期 望 的 输出 已 经 知道 ， 神 经 网 络 利用 它 对 模 
型 参数 进行 不 断 修正 。 而 输出 结果 未 知 的 无 监督 学 习 ， 则 对 期 望 的 输出 并 不 知道 ， 因 此 
无 法 监督 网 络 的 迭代 ， 此 时 一 般 采用 诸如 K- 均值 算法 等 构造 网 络 进行 评估 ， 然 后 不 断 
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和 迭代 以 找到 更 好 的 局 部 最 优 解 ， 它 可 用 于 对 数据 进行 聚 类 。 

反 向 传播 算法 是 Hinton 在 1986 提出 的 ， 直 到 今天 它 依然 是 最 流行 的 神经 网 络 算法 
之 一 ， 其 理念 是 利用 输入 数据 根据 BP 神经 网 络 算出 结果 ， 将 计算 结果 与 已 知 实际 结果 
进行 评估 ， 如 果 结 果 不 理 想 〔 即 误差 不 够 小 ) 则 不 断 调整 连接 权重 直到 模型 计算 结果 和 
实际 结果 的 误差 足够 小 为 止 。 

比如 前 面 图 26-5 展示 的 简单 神经 网 络 结构 ， 它 由 3 层 组 成 输入 层 包含 2 个 节点 
隐藏 层 包含 3 个 节点 ， 输 出 层 则 只 包含 1 个 节点 。 输 入 层 节点 和 输出 层 节点 之 间 并 不 直接 
连接 ， 而 是 通过 一 个 或 多 个 隐藏 层 节点 进行 连接 。 每 个 节点 之 间 的 连接 表现 为 一 个 权重 值 
W。 训 练 数据 集中 的 输入 值 用 于 给 输入 层 提供 输入 信息 。 比 如 平面 上 我 们 采集 了 若干 个 点 
集 Ge 习 ， 每 个 点 都 是 一 个 输入 样本 ， 而 实际 输出 类 别 z 也 是 已 知 ， 则 我 们 可 以 把 一 个 输 
入 点 Ge y) 数据 和 对 应 的 输出 数据 类 别 z 作为 一 条 训练 样本 ， 提 供给 神经 网 络 进行 训练 

神经 网 络 实践 中 的 主要 工作 包括 神经 网 络 层 数 的 选择 ， 各 层 神经 元 数目 的 选择 ， 以 
及 如 何 设置 神经 元 之 间 的 权重 ， 训 练 神经 网 络 参数 并 评估 输出 结果 和 实际 结果 的 误差。 
其 中 还 涉及 前 面 提 到 的 激活 函数 ， 以 及 学 习 率 和 动量 项 等 概念。 

(1) 神经 网 络 层 数 和 节点 数 的 选择 取决 于 具体 问题 ， 比 如 对 于 一 个 具有 2 列 输入 信息 
和 1 列 输出 结果 的 样本 ， 其 输入 层 和 输出 层 节点 数 就 是 2 和 1. 前面 的 神经 网 络 就 能 满 
足 要 求 。 也 就 是 说 神经 网 络 的 输入 层 和 输出 层 节点 数 是 取决 于 待 求解 的 问题 和 训练 数据 。 

(2) 隐藏 层 的 层 数 以 及 每 层 的 节点 数 往往 取决 于 我 们 希望 网 络 需要 达到 的 学 习 深 
BE. 有 时 我 们 经 常 说 的 “深度 学 习 ”, 其 深度 就 是 隐藏 层 数 较 多 ,每 层 的 节点 数 也 比较 大 。 
如 果 神 经 网 络 每 层 的 节点 数 庞大 ， 会 导致 计算 量 增加 ， 而 过 少 则 有 可 能 导致 算法 的 学 习 
能 力 不 足 。 因 此 神经 网 络 需 要 不 断 调节 来 保持 平衡 和 合理 的 网 络 结构 ， 以 确保 神经 网 络 
的 输出 具有 足够 改善 。 本 质 上 ， 隐 藏 层 节点 个 数 就 反映 特征 空间 的 维 数 〈 一 个 神经 元 能 
够 做 出 单个 线性 划分 ) ， 当 具有 多 个 隐藏 层 时 ， 我 们 可 将 它 理解 为 特征 的 特征 。 一 个 简 
单 的 经 验 公式 可 以 确定 隐 含 层 节点 的 数目 ，N, IN ON ac HPN Na N, SIR 
示 隐 藏 层 ， 输 入 层 和 输出 层 的 节点 数 ， 而 a 为 调节 因子 ， 通 常 取 值 为 1-10. 

(3) 神经 网 络 节点 之 间 的 权重 设置 与 调整 是 神经 网 络 训练 的 关键 。 一 开始 每 个 权 
重 可 以 是 随机 数 ， 也 可 以 是 根据 经 验 人 为 指定 的 合理 数值 。 然 后 通过 提供 训练 样本 的 误 
差 反馈 进行 不 断 调整 。 权 重 调整 应 该 是 连续 地 从 整体 上 调整 ， 而 不 是 每 次 调整 一 个 ， 每 
次 迭代 后 ， 如 果 神经 网 络 比 上 一 次 迭代 能 够 产生 更 好 的 结果 ， 则 权重 被 保留 并 继续 迭代 。 
找到 使 输出 数据 和 实际 数据 误差 最 小 化 的 权重 组 合 是 权重 更 新 的 主要 目的 ， 也 是 模型 训 
练 不 断 趋向 于 “更 优化 ”的 重要 指导 原则 。 

(4) 学 习 率 Learning Rate) 学习 率 是 我 们 每 次 修正 权重 的 改变 量 v. 除 以 节点 
值 芒 ， 再 除 以 输出 值 与 期 望 值 的 误差 Er )。 早 期 的 神经 网 络 并 没有 学 习 率 和 动量 项 
的 概念 ， 这 是 神经 网 络 发 展 中 为 抑制 零 梯度 问题 引入 的 改进 。 训 练 神经 网 络 时 学 习 率 数 
值 的 指定 是 很 困难 的 事情 ， 太 小 则 需要 更 长 时 间 才能 收敛 ， 太 大 则 可 能 有 相反 效果 并 且 
导致 发 散 。 一 般 情况 下 ， 我 们 在 训练 神经 网 络 时 将 学 习 率 设 为 最 常用 的 经 验 值 035， 但 
某 些 神经 网 络 也 可 以 对 每 个 连接 权重 有 特定 的 学 习 率 。 
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C5) 动量 项 (Momentum Term) : 神经 网 络 中 动量 项 的 引入 是 为 了 加 速算 法 收敛 ， 
以 让 迭代 时 权重 的 更 新 部 分 依赖 于 上 一 次 迭代 的 权重 值 , 它 在 某 种 程度 上 加 大 了 搜索 步 长 ， 
从 而 能 更 快 收 化 。 它 的 取 值 范围 为 [0, 1]， 但 如 果 取 值 太 大 则 会 增 大 上 一 时 刻 的 权重 调整 
对 当前 时 刻 误 差 的 梯度 下 降 调 整 的 影响 。 某 种 意义 上 动量 项 代表 着 惯性 ， 实 践 中 一 般 设 置 
为 01-08 左右 。 


26.2.1 训练 神经 网 络 


训练 神经 网 络 包括 两 部 分 计算 过 程 : 输入 数值 的 正 向 传递 和 结果 误差 的 反 向 传递 。 

(1) 根据 现 有 的 神经 网 络 权 重 ， 逐 层 计 算 输 出 节点 值 ， 最 后 将 输出 层 输 出 值 跟 期 
望 值 进行 比较 ， 算 出 误差 。 

(2) 结果 误差 的 反 向 传递 时 ， 误 差 用 来 修正 神经 网 络 中 的 权重 参数 ， 目 的 是 减少 
神经 网 络 输出 的 误差 。 

正 向 和 反 向 传递 不 断 重 复 ， 直 到 输出 值 和 期 望 值 的 误差 低 于 某 个 指定 水 平 为 止 。 这 
个 训练 过 程 本 质 上 就 是 一 个 不 断 尝 试 找到 某 个 局 部 最 优 的 神经 网 络 参数 ， 使 基于 训练 集 
中 的 所 有 输入 用 模型 计算 出 来 的 输出 和 实际 训练 数据 集中 的 期 望 输出 之 间 的 总 体 误差 最 
小 的 过 程 。 这 就 是 为 什么 有 人 说 神经 网 络 就 是 一 个 试 错 网 络 。 

从 这 个 过 程 中 可 以 看 出 ， 神 经 网 络 的 能 力 依赖 于 神经 网 络 的 结构 设计 ， 初 始 权重 参 
数 ， 误 差 反 向 传播 时 的 权重 修正 方法 ， 以 及 训练 数据 样本 的 大 小 。 神 经 网 络 的 设计 是 一 
个 不 断 调 优 和 修正 的 过 程 ， 而 训练 数据 的 大 小 则 在 一 定 程度 上 决定 了 既定 神经 网 络 最 终 
的 分 类 能 力 。 实 践 中 为 了 科学 地 训练 神经 网 络 模型 ， 一 般 情 况 下 ， 我 们 可 以 将 某 个 观测 
数据 集 的 样本 进行 重新 采样 ， 如 其 中 天 个 样本 用 于 训练 ， 而 剩 下 的 工 个 用 于 测试 模型 的 
效用 ， 其 中 K+L=N 构成 总 的 样本 数 〈 见 图 26-9) o 


XenX, Yi 
K 

N XX, YynY, 
L 

XX, Yy-Y, 


图 26-9 样本 划分 用 于 训练 网 络 


另外 ， 当 神经 网 络 比较 庞大 时 ， 我 们 还 需要 裁剪 一 些 无 用 的 节点 来 减少 神经 网 络 的 
计算 负载 。 简 单 的 神经 网 络 固然 易于 对 数据 进行 解释 ,但 裁剪 神经 网 络 也 需要 特别 小 心 ， 
以 防止 将 模型 过 于 简化 而 影响 神经 网 络 的 效用 。 


26.2.2” 反 向 传播 算法 


反 向 传播 算法 包括 4 个 主要 步骤 ， 其 核心 思想 是 随机 选择 初始 神经 网 络 权重 后 ， 利 
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用 反 向 传播 算法 不 断 修正 神经 网 络 的 权重 参数 ， 直 到 神经 网 络 的 输出 值 和 实际 值 的 误差 
变 得 足够 小 。 正 向 传播 的 是 输入 数据 或 信和 号， 而 反 向 传播 的 是 误差 。 

COD 前 馈 计算 : 神经 网 络 从 训练 数据 中 获得 输入 层 数据 ， 然 后 逐 层 计算 隐藏 层 节 
点 的 值 ， 基 于 这 些 值 逐 层 向 后 计算 ， 直 到 获得 输出 层 的 值 。 

Q) 反 向 传播 到 输出 层 ， 将 步骤 (1) 获得 的 输出 层 的 值 跟 期 望 值 进行 比较 ， 计 算 
出 误差 ， 然 后 将 误差 反 向 传播 到 输出 层 。 

G) 反 向 传播 到 隐藏 层 : 将 步骤 OO 的 误差 在 隐藏 层 内 由 后 向 前 逐 层 反 向 传播 到 
第 一 个 隐藏 层 。 

(4) 不 断 更 新 权重 ， 这 一 步 贯穿 整个 算法 。 

下 面 我 们 以 手动 计算 实例 来 说 明神 经 网 络 的 具体 工作 过 程 ， 然 后 用 SAS 语言 实现 一 
个 完整 的 反 向 传播 神经 网 络 。 为 了 说 明 问 题 并 能 够 手动 计算 每 一 步 ， 我 们 设计 了 一 个 尽 
可 能 简单 的 神经 网 络 ， 目 的 是 训练 它 能 识别 “逻辑 与 ” 功能 ， 即 两 个 条 件 同时 为 真 的 时 
候 ， 结 果 才 可 能 为 真 ， 也 就 是 生活 中 常 说 的 “并 且 ” KR HERUR 26-1 所 列 。 


26-1 ”逻辑 与 的 输入 输出 


为 此 ， 我 们 设计 如 下 人 工 神经 网 络 结构 : 输入 层 为 2 个 节点 〈 因 为 有 两 个 输入 ) ， 
隐藏 层 为 2 个 节点 ， 输 出 层 为 1 个 节点 〈 因 为 只 有 1 个 输出 ) 。 神 经 网 络 的 初始 权重 是 
人 为 指定 的 ， 为 演示 我 们 简单 指定 为 0.1-0.6〈 见 图 26-10) 。 


期 望 值 
1 


图 26-10 ”实现 逻辑 AND 运 运算 的 神经 网 络 


1. 前 馈 计算 

前 馈 计算 只 涉及 隐藏 层 和 输出 层 ， 输 入 层 数 据 用 于 接收 外 部 数据 ， 在 神经 网 络 训练 
过 程 中 不 会 变化 。 这 里 我 们 选择 简单 的 S 函数 作为 激活 函数 /tz)=1/(1+e )。 对 于 每 一 层 
节点 的 值 x;〈 其 中 1 表示 神经 网 络 层 编号 ,j 表示 神经 网 络 层 的 节点 编号 ， 下 标 从 0 开始 
算 起 ) ， 其 计算 方法 是 该 节点 的 所 有 输入 节点 乘 以 各 自 的 权重 求 和 ， 然 后 利用 Sigmoid 
函数 变换 得 到 ， 即 
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fid. 
1+e 
其 中 每 一 个 节点 值 :为 


Ca 
z-X,- (us ži w) 
j-0 


RP: Ca 为 第 六 1 层 〈 即 第 7 层 的 前 一 层 ) 所 拥有 的 节点 数 ; W 为 第 六 1 层 第 7 
个 节点 到 下 一 层 第 i 个 节点 之 间 的 权重 。 
前 面 的 例子 中 ， 我 们 为 了 计算 方便 将 “ 假 ” 用 数字 0 表示 ，“ 真 ”用 数字 1 表示 。 
并 且 我 们 人 为 指定 神经 网 络 的 初始 输出 权重 为 0.1, 0.2, 0.3, 0.4( 输 入 层 ) 和 0.5, 0.6( 隐 藏 层 )。 
假定 我 们 现在 训练 第 1 条 数据 〈xo=1l,xo=1) ， 则 隐藏 层 节点 me 和 o 可 以 如 下 计算 : 
Xio = f (Xoo X W9 o + Xor x M19) = f (1x 0.1+1x 0.3) = f (0.4) = 0.5986876601 
Xu = f Gg X wp, + Xo x W1) = f0 x0.2+1x0.4) = f (0.6) = 0.6456563062 
一 旦 某 个 隐藏 层 节 点 被 计算 完毕 ， 我 们 就 可 以 正 向 传播 : 利用 同样 的 公式 和 激活 函 
数 逐 层 计算 每 层 的 节点 值 ， 直 到 所 有 输出 层 节点 计算 完毕 为 止 。 本 例 中 只 有 一 个 输出 层 
节点 ， 很 容易 计算 出 : 
3 = f Xo +X X9) 
= f(0.5986876601 x 0.5 + 0.6456563062 x 0.6) 
= f(0.6867376138) 
= 0.6652408002 
2. 反 向 传播 


计算 输出 层 节 点 的 误差 是 根据 神经 网 络 计 算出 来 的 结果 和 训练 数据 中 给 出 的 实际 值 
进行 比较 得 到 。 其 计算 公式 为 
Err(x) 2 x(1 - x)(x. — x?) 
对 于 xo， 该 节点 的 误差 计算 为 
Err(xzo) = x0(l— 25 =x) 
AP: A ECTS ARE: xL AANA RKE KARSA 108 
0.6652408002。 因 此 输出 节点 zz 的 误差 为 
Er(x0) = x (01— as 一 220) 
= 0.6652408002(1 — 0.6652408002)(1— 0.6652408002) 
= 0.07454936 
输出 层 节 点 的 误差 一 旦 计算 出 来 后 ， 则 需要 用 它 来 对 隐藏 层 进行 反 向 误差 传播 和 权 
重 调整 。 数 学 上 已 经 证 明 ， 每 个 权重 的 梯度 等 于 与 之 相连 的 前 一 层 节点 的 输出 ， 乘 以 与 
之 相连 的 后 一 层 反 向 传播 的 输出 。 为 改善 神经 网 络 的 收敛 ， 首 先 需要 在 等 式 中 引入 动量 
项 a 和 学 习 率 5。 对 于 某 个 隐藏 层 节点 的 输出 权重 w;, ， 首 先 要 找到 它 的 改变 率 Aw, UE 


可 根据 如 下 公式 计算 出 来 : 
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Aw, -g*En(x4)*x; 
对 于 假设 的 例子 ， 其 中 假定 设置 学 习 率 为 常用 经 验 值 0.35 ， 则 隐藏 层 第 一 个 节点 
Xo 的 输出 权重 修正 量 : 
Awp =£ * Err(xy,) * xio =0.35x0.07454936x 0.5986876601 = 0.0156211237 
则 新 的 权重 可 根据 如 下 公式 算出 ， 其 中 假定 设置 动量 项 a 为 0.9， 则 新 的 隐藏 层 第 
一 个 节点 me 的 输出 权重 为 
Mig 7 Wjg + Awy + (æ x A(t — 1)) = 0.5 - 0.0156211237 + 0.9 x 0 = 0.5156211237 
式 中 :Ww 为 原来 的 输出 权重 ; AQ-1) 为 上 一 次 迭代 〈 即 (71 时 刻 ) 该 节点 的 权重 变 
化 量 。 第 一 次 迭代 开始 时 为 零 ， 而 后 续 夫 代 则 为 上 一 次 迭代 的 权重 变化 量 。 
同 理 ， 可 以 算出 : 
An = f * Err(xyy) * xi =0.35x0.07454936 x 0.6456563062 = 0.0168466425 
则 新 的 权重 wi 可 根据 如 下 公式 算出 : 


Wy, = Wh + Aw + (æ * A(t - 1))70.6 + 0.0168466425 + 0.9 x 0 = 0.6168466425 

至 此 ， 我 们 已 经 将 误差 从 输出 层 反 向 传播 到 隐藏 层 了 。 

对 于 输出 层 节点 zx， 由 于 预先 知道 了 其 对 应 的 期 望 值 x =1 ， 因 此 我 们 能 够 根据 公 
式 Enr)ex(1-) 67-9) 来 计算 误差 项 ErrCeo)。 但 对 于 隐藏 层 节 点 〈 如 xm 和 xi) 而 言 ， 
则 预先 并 不 知道 它们 对 应 的 期 望 值 ， 那 么 我 们 如 何 得 到 隐藏 层 节点 的 误差 项 呢 ? 

由 于 某 个 节点 的 误差 来 自 上 一 层 节点 的 贡献 ， 即 上 一 层 节点 的 误差 项 以 其 新 的 输出 
权重 传播 到 下 层 节 点 形成 了 下 一 层 节 点 的 误差 项 ， 因 此 ， 我 们 需要 通过 权重 关系 逆 推 出 
上 一 层 的 误差 项 ， 即 

Err(5) = xj (0 — 355) * Err(x,) * Wh 
—0.5986876601x (1 — 0.5986876601) x 0.074554936 x 0.5 
—0.0089556424 
Err(3,,) = x, (0123) * Er) * Wa 
= 0.6456563062 x (1 — 0.6456563062) x 0.07454936 x 0.6 
—0.0102334312 

这 样 ， 我 们 就 得 到 了 最 后 一 个 隐藏 层 的 误差 项 ， 根 据 它 以 及 输入 的 权重 ， 就 可 以 根 
据 前 面 所 述 的 计算 方法 来 计算 输入 层 节点 新 的 输出 权重 : 首先 对 每 一 个 输出 权重 计算 其 
改变 量 Awo. Aw Awo LAS, 即 厅 乘 以 下 一 层 节点 的 误差 项 再 乘 以 当前 层 节点 的 值 ， 即 

Aw; -2p*En(x4)*x, 

从 而 得 到 输入 层 的 输出 权重 修正 量 : 

Aug, = BxEr(xao)。xo =0.35x0.0089556424x1= 0.003134474 
Aw, = BxEr(m)。xo =0.35x0.0102334312x1= 0.0035817009 
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Auf, = fx Er) * xo 7 0.35x0.0089556424 x1— 0.003134474 
Aw = Bx Err(x,,) * xu 70.35x 0.0102334312 x1 = 0.0035817009 
有 了 修正 量 ， 就 可 以 很 容易 算出 对 应 的 新 输出 权重 ， 它 等 于 原来 的 权重 加 上 修正 量 ， 
再 加 上 动量 项 a 乘 以 上 次 迭代 该 权重 的 变化 量 。 
w; =w; Aw, (a * A(t— 1) 
则 最 后 可 以 计算 出 新 输出 权重 为 
wh = W + Awp Hæ * AC —1)] = 0.1 +0.003134474 + 0.9 x 0 = 0.1031344748 
wp, =w + Aw Ha * AC —1)] = 0.2 + 0.0035817009 + 0.9 x 0 = 0.2035817009 
wo = Wo + Awp Hea * AC —1)] = 0.3 + 0.003134474+ 0.9 x 0 = 0.303 1344748 
wf =w} + Awi Ha * AC —1)]= 0.4 + 0.0035817009 + 0.9 x 0 = 0.4035817009 
这 里 需要 特别 强调 的 是 ， 计 算出 来 的 新 权重 不 能 单独 更 新 ， 而 是 需要 等 所 有 的 误差 
项 都 计算 完毕 后 才能 统一 更 新 ， 和 否则 可 能 用 部 分 更 新 数据 进行 运算 导致 结果 的 无 效 ， 这 
需要 我 们 在 代码 实现 中 特别 注意 。 
至 此 ， 第 一 次 反 向 传播 迭代 计算 完毕 ， 我 们 可 以 检验 新 的 神经 网 络 权重 是 否 “更 
优 ” 一 一 即 是 否 能 更 好 地 预测 结果 ， 预 测 结果 的 误差 更 小 。 我 们 只 需要 用 新 的 权重 计算 
各 层 节 点 直到 输出 层 预测 出 结果 为 止 ， 计 算 隐藏 层 节点 值 : 
Xio = f(xoo X Mp o + Xo X10) 
= f (1x0.1031344748 + 1x 0.3031344748) 


= f(0.4062689497) 
= 0.6001929065 


Xa = f (Xo ZW + Xor xw) 
= f(1x0.2035817009 + 1x 0.4035817009) 
= f(0.6071634019) 
=0.6472934645 
计算 输出 层 节点 : 
Xy = fux Wo bia ie wa) 
= f(0.6001929065 x 0.5156211237 4-0.6472934645 x 0.6168466425) 
— f(0.7087529411) 
—0.6701255469 
调整 权重 后 神经 网 络 计算 出 的 值 0.6701255469 和 调整 前 的 值 0.6652408002 有 一 个 
正 的 改进 量 0.0048847467， 这 离 预先 知道 的 期 望 值 1 更 近 了 一 点 。 计 算 其 误差 项 : 


Er(x;) =x; 0- xy w =x) 


得 
Err(xy) = x (10 — 35, Nn 一 220) 
—0.6701255469(1— 0.6701255469)(1— 0.6701255469) 
—0.0729211554 
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这 说 明神 经 网 络 权 重 更 新 后 预测 值 的 误差 从 原来 的 0.07454936 减少 为 
0.0729211554， 误 差 减少 了 0.0016282046， 说 明神 经 网 络 通过 反 向 传播 算法 修正 后 误差 
变 小 了 2.18%， 神 经 网 络 利用 误差 反 向 传播 修正 权重 后 其 预测 的 准确 性 确实 有 改进 。 尽 
管 这 个 数值 看 起 来 很 小 ， 但 不 要 小 看 这 微小 的 改进 ， 因 为 这 仅仅 是 一 次 训练 迭代 的 效 
果 。 当 提高 训练 次 数 时 ， 神 经 网 络 将 会 展现 其 神奇 的 自我 优化 能 力 。 下 面 的 结果 为 笔者 
用 SAS 语言 实现 的 3 层 的 BP 神经 网 络 ， 节 点 数 分 别 为 2, 8, 1， 训练 1000 次 后 再 次 对 
原 训练 数据 进行 分 类 预测 ， 效 果 已 极其 显著 (其 中 第 1、2 列 为 输入 数据 , 第 3 列 为 预测 
值 ， 第 4 列 为 期 望 值 ， 即 希望 神经 网 络 具有 “逻辑 与 ”运算 能 力 的 期 望 值 ) 。 

NOTE: 神经 网 络 层 数 3 { 2 8 1 } rate- 0.35 mobp- 0.9 

NOTE: 训练 1000 次 后 神经 网 络 预测 结果 如 下 : 


xlx2 ”预测 值 ”期 望 值 
hu 0.97 1.00 
0.02 0.00 
0.01 0.00 
0.00 0.00 
0.99 
1.00 
NOTE: "DATA 语句 ”所 用 时 间 ( 总 处 理 时 间 ) : 
实际 时 间 0.25 秒 
CPU 时 间 0.20 秒 


26.3 SAS 代码 实现 与 范例 


为 说 明 其 工作 原理 ， 下 面 我 们 使 用 SAS 的 FCMP 函数 来 实现 可 重用 的 反 向 传播 神 
经 网 络 算法 ， 首 先 我 们 实现 前 馈 计 算 部 分 ， 即 信号 或 数据 向 前 传播 的 过 程 。 图 26-11 展 
示 了 数据 进入 神经 网 络 输入 层 ， 直 到 最 后 计算 出 输出 数据 的 完整 视图 。 

在 写 程序 之 前 ， 我 们 先 约定 神经 网 络 的 数据 结构 。 首 先 我 们 定义 一 个 二 维 数组 
din, m] 作为 训练 数据 ， 它 有 n 行 m 列 ， 每 一 行 数据 都 是 一 个 样本 。 同 时 我 们 定义 二 维 
数组 ofn, 有 ， 表 示 训 练 数据 样本 对 应 的 输出 结果 。 而 一 维 数组 c[7] 表示 第 1 层 神 经 网 
络 的 节点 数目 ，x 表示 第 1 层 第 j 个 节点 的 数值 ， 而 w j 表示 第 1 层 第 j 个 节点 到 
下 一 层 第 i 个 节点 的 输出 权重 。 需 要 特别 注意 ， 由 于 SAS 语言 数组 下 标 默 认 从 1 开始 
而 不 是 0， 这 一 点 跟 Java 和 C/C++ 编程 语言 不 同 。 

在 训练 神经 网 络 之 前 ， 首 先 要 给 神经 网 络 的 权重 赋 初 始 值 。 实 践 中 我 们 可 以 采用 服 
从 均匀 分 布 在 [0, 1] 之 间 的 随机 数 对 它 进行 初始 化 ， 也 可 以 由 用 户 人 为 指定 其 初 值 ( 见 
程序 26-1) 。 
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训练 数据 | a 
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图 26-11 神经 网 络 数据 视图 


程序 26-1 初始 化 神经 网 络 权重 ， 包 括 输入 层 和 隐藏 层 
function initweight(c[*],w[*,*,*]); 
outargs w; 
do 1-1 to dim(c); 
if 1 <= dim(c)-1 then do; 
do j=1 to c[1]*1; 
do i-1 to c[1*1]; 
w[1,j,i]-rand("UNIFORM",0,1) 
/* 初 始 化 策略 : 用 服从 [0, 1] 均匀 分 布 的 随机 数 */ 
end; 
end; 
end; 
end; 
return(1); 
endsub; 


神经 网 络 权重 初始 化 后 ， 就 可 以 编写 前 馈 计算 函数 feedforward〈 见 程序 262). , "EA 
第 一 个 隐 含 层 开始 计算 ， 逐 层 计 算 前 一 层 节 点 的 内 积 并 使 用 激活 函数 得 到 当前 层 节 点 的 
值 。 其 中 要 注意 输入 层 的 数据 直接 来 自 于 训练 数据 4， 而 不 像 隐藏 层 节点 那样 需要 内 积 
和 激活 函数 运算 ， 代 码 逻 辑 参见 注释 行 。 


程序 26-2 ”前 馈 计算 每 个 节点 值 
function feedforward( d [*,*], v, c[*], x [*,*1, w[*,*,*]); 
outargs x; 
do 1-2 to dim(x); /* 从 第 一 个 隐藏 层 开始 往 前 计算 */ 
do j-1 to c[1]; 
s=0; 
do i=1 to c[l-1]; 
if 1-2 then do; 
/* 如 果 是 第 一 个 隐藏 层 ， 初 值 来 自 于 输入 层 数据 */ 
x[l-1, 14]= d[v, i]; 


s-s + w[1-1, i, j] * x[1-1, i]; 
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/* 计 算 内 积 完毕 ， 使 用 Sigmoid 函数 标量 化 */ 
xil, j= 1 / (1+ exp( -3)); 
end; 
end; 
return( dim(x) ); 
endsub; 


对 于 误差 项 的 反 向 传播 ， 从 输出 层 到 隐藏 层 逐 层 计算 误差 并 修正 权重 ， 其 中 需要 记 
录 下 权重 改变 量 wa[/, 记 司 以 备 下 次 循环 使 用 。 误 差 项 的 内 积 后 需要 乘 上 前 置 节点 的 系数 
x[1.7]*(1-x[2. 六 ， 其 完整 代码 如 程序 26-3 所 示 。 


程序 26-3 ” 反 向 传播 误差 并 修改 权重 
function backpropagation( o [*,*], v , c[*], x[*,*] , e[*,*],wI[*,*,*], 
wd[*,*,*], rate, mobp); 
outargs x,e, wd, w; 


l=dim (x); 

do j=1 to c[l]; 
e[l, j]=x[l, j] * (1- x[l, 31) * (olv, j] - x[l, jl); 
/* 输 出 层 节点 的 误差 可 以 从 输出 数据 和 输出 层 节点 的 预测 值 直接 比较 得 到 */ 


end; 


do while( 1 »2 ); 
1-1-1; 
do j-1 to c[1]; 
se-0.0; 
do 1 to c[1*1]; 
se-set e[l*l, i] * w[l, j, i]: 
/* 对 误差 项 进行 内 积 */ 
end; 
e[l, j] = x[l, j] * (1- x[l, j]) * se; 
/* 计 算 隐藏 层 节点 的 误差 项 */ 
end; 
end; 


l=dim (x); 
do while( 1 >1 ); 
1-1-1; 
do j-1 to c[1]:; 
do i-1 to c[1*1]; 
wd[1,j,i]- rate * e[1*1, i] * x[1, j] + mobp * wd[l, j, il]: 
/* 计 算 权重 改变 量 weight delta */ 
w[l, j, il-w[l, j, i] + wd[l, j, i]; 
/* 更 新 权重 weight[1, j,il*/ 
end; 
end; 
end; 
return(1); 
endsub; 


至 此 ， 就 可 以 写 出 训练 单个 样本 的 处 理 函 数 train 如 下 〈 见 程序 26-4) o 


程序 26-4 ”对 输入 数据 进行 训练 
function train( d [*,*] , o[*,*], v , c[*], x [*,*], e[*,*1, w[*,*,*], 
wd[*,*,*], rate, mobp); 
outargs o, x, e, wd, w; 


rc-feedforward(d, v, c, x, w); 
rc-backpropagation(o, v, c, x ,e , w , wd, rate, mobp); 
return(rc); 

endsub; 
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最 后 ， 需 要 把 上 面 的 几 个 函数 集成 到 神经 网 络 的 主 函数 BPMain 中 。 由 于 SAS 不 支 

持 锯 齿 状 数组 ， 需 要 用 二 维 数组 替代 ， 并 用 一 个 额外 的 一 维 数组 来 记录 各 神经 网 络 层 的 
节点 数 。 该 函数 包括 如 下 3 个 主要 步 又 。 

(1) 分 配 神经 网 络 训练 所 需 的 节点 、 权 重 、 误 差 和 变化 量 的 数组 空间 ， 然 后 调用 
初始 化 权重 进行 初始 化 。 

(2) 利用 训练 样本 数据 d 和 对 应 的 期 望 数据 对 神经 网 络 进 行 重复 训练 ， 此 时 神经 
网 络 的 权重 会 自动 更 新 并 逐渐 优化 到 指定 水 平 。 

(3) 训练 结束 后 ， 可 以 用 该 神经 网 络 对 未 知 数据 testdata 进行 预测 和 分 类 ， 并 将 结 
果 写 入 到 用 户 指定 的 输出 数组 中。 其 完整 代码 见 程序 26-5 所 示 。 


程序 26-5 “人 工 神经 网 络 主 函 数 ， 支 持 学 习 率 和 动量 项 。 对 testdata 进行 预测 输出 到 r 
function BpMain( d[*,*], o[*,*], c[*], rate, mobp, times, testdata[*,*], 
mEpey* Qr 
outargs o, r; 


/* 统 一 用 二 维 数组 管理 ， 找 到 各 层 最 大 的 神经 元 数目 */ 
max c-constant ("SMALL"); 
do i-1 to dim(c); 
if c[i]»max c then max c-c[i]; 
end; 


/* 动 态 分 配 节点 数组 /节点 误差 数组 ( 二 维 ) ， 权 重 数组 /权重 该 变量 数组 (三 维 ) */ 
array x[1,1] / nosymbols; 
call dynamic array(x, dim(c), max c); 
array e[1,1] / nosymbols; 
call dynamic array(e, dim(c),max c); 
array w[1,1,1] / nosymbols; 
call dynamic array(w, dim(c), max c*l, max c); 
array wd[1,1,1] / nosymbols; 
call dynamic array(wd, dim(c),max c*l, max c); 
/* 为 避免 缺失 值 ， 我 们 初始 化 所 有 数组 元 素 为 0 */ 
do 1=1 to dim(c); 
do i-1 to max c; /*c[1]*/ 
x[1, i]-0; 
e[l, i]-0; 
do j= 1 to max c*l; 
w[1,j,i]-0; 
wd[1,j,i]-0; 
end; 
end; 
end; 


rc-initweight(c ,w); /* 调 用 初始 化 权重 处 理 ， 可 根据 神经 网 络 结构 需要 改变 */ 
/* 阶 段 1:， 用 输入 数据 a 和 o 训练 神经 网 络 ， 执 行 times 次 学 习 */ 


do t-1 to times; 
do v-1 to dim(d); 
rc-train(d, o, v , c, x, e, w, wd, rate, mobp); 
end; 
end; 


/* 阶 段 2: 训练 结束 后 ， 即 可 用 训练 完 的 神经 网 络 进行 预测 分 类 并 将 结果 写 入 数组 rh */ 
do v-1 to dim(testdata); 
l-feedforward(testdata, v, c, x, w); 
do j=1 to c[1]; 
tiv, j= zi l, jl; 
end; 
end; 
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return(1); 
endsub; 


要 把 上 面 的 所 有 函数 编译 到 一 个 函数 库 中 ， 只 需要 将 前 面 的 代码 都 放 到 SAS 过 程 步 
PROC FCMP 内 执行 ， 生 成 函数 库 work.funcs.bpnet 即 可 《〈 见 程序 26-6) : 


程序 26-6 将 全 部 函数 编译 到 woRK.FUNCS .BPNET 模块 中 
proc fcmp outlib-work.funcs.bpnet; 
/* 将 前 面 的 所 有 函数 放 到 这 儿 ， 生 成 work.Funcs.bpnet 函数 库 */ 
run; 
quit; 


最 后 编写 该 神经 网 络 算法 的 测试 程序 ， 演 示 数 据 为 前 面 我 们 手动 计算 所 使 用 的 那些 
数据 。 要 在 数据 步 内 调用 我 们 已 经 写 好 的 函数 ， 需 要 指定 系统 选项 options emplib-(work. 
funcs)。 其 完整 代码 如 程序 26-7 所 示 。 


程序 26-7 ”神经 网 络 模块 测试 程序 
options cmplib=(work.funcs work.myfunc); 
proc fcmp outlib-work.myfunc.BPNet; 
/* 重 写 初始 化 神经 网 权重 ， 如 果 不 重 写 默认 使 用 均匀 分 布 的 0-1 随机 数 初始 化 */ 
function initWeight(c[*],w[*,*,*])?; 
outargs w; 
w[1,1,1]-20.1; 
w[1,1,2]-20.2; 
w[1,2,1]-0.3; 
w[1,2,2]20.4; 


w[2,1,1]20.5; 
w[2,2,1]-20.6; 
return(1); 
endsub; 
run; 
quit; 


data null ; 
/* 构建 3 层 神经 网 络 ， 节 点 数 为 2，8，1*/ 
array c [3] temporary ; 
c[1]= 2; c[2]=8; c[3]= 1; 


rate-0.35; mobp=0.9;/* 默 认 学 习 率 和 动量 系数 */ 
/* 打 印 神经 网 络 基本 信息 */ 


ln-dim(c); 
put "NOTE: 神经 网 络 层 数 " 1n '( ' ee ; 
do i-1 to dim(c) 
put c[i] " " G6; 
end; 
put ") rate- " rate "mobp- " mobp; 


/* 准 备 训练 数据 ， 是 一 个 4 行 2 列 的 数据 */ 
array data[4,2] temporary ; 
data[1,1]- 1; data[1,2]- 1; 
data[2,1]- 1; data[2,2]- 0; 
data[3,1]- 0; data[3,2]- 1; 
data[4,1]- 0; data[4,2]- 0; 


/* 准 备 训练 数据 期 望 的 结果 ， 我 们 模拟 逻辑 AND 操作 */ 


array target[4,1] temporary ; 
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target[1,1]- 
target[2,1] 
target[3,1] 
target[4,1]- 


EE 
0; 
0; 
0 


/* 准 备 检验 数据 : 用 来 测试 训练 后 的 神经 网 络 是 否 有 效 */ 
array testdata[6,2] temporary ; 
testdata[1,1]- 1; testdata[1,2]- 1; 
testdata[2,1]-» 1; testdata[2,2]- 
testdata[3,1]- 0; testdata[3,2]- 
testdata[4,1]- 0; testdata[4,2]- 0; 

/* 加 入 神经 网 络 没有 学 习 过 的 数据 (1, 2) 和 (3, 4) 进行 泛 化 测试 */ 
testdata[5,1]= 1; testdata[5,2]= 2; 

testdata[6,1]- 3; testdata[6,2]- 4; 


/* 用 于 接收 神经 网 络 预测 结果 ， 它 和 target 列 宽 一 样 ， 但 行 数 要 跟 testdata 一 样 */ 
array testdata p[6,1] temporary ; 


/* 一 切 妥当 ， 训 练 1000 次 */ 

times-1000; 

rc-BpMain(data, target, c, rate, mobp, times, testdata,testdata p); 
put "NOTE: 训练 " times "次 后 神经 网 络 预测 结果 如 下 : "7 


/* 打 印 神经 网 络 预测 的 结果 */ 
put "xl x2 预测 值 期 望 值 "; 
do i-1 to dim(testdata); 
do j-1 to dim(testdata,2); 
put testdata[i,j] " " ee; 
end; 
do j-1 to dim(testdata p,2); 
put testdata p[i,j] 6.2" " @@; 
if i«- dim(target) then put target[i,j] 6.2" " Q6; 
end; 
put "mw. 
end; 
run; 


运行 程序 26-7 代码 将 得 到 如 下 结果 《〈 见 图 26-122 ， 从 结果 中 可 以 看 出 : 所 有 训练 
过 的 数据 都 能 非常 好 地 被 预测 (0.97 非常 接近 D ， 甚 至 在 没有 训练 过 的 两 条 数据 (1,2) 
和 (3.4)， 该 神经 网 络 也 能 准确 预测 出 1.00 和 1.00， 确 实 非常 令 人 惊异 。 


: 


Des- cm) — | 则 BE- (xem) poetas | sere decim 
prr 


26-12 ”神经 网 络 预测 结果 
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实际 上 , 读者 可 以 利用 这 个 通用 的 神经 网 络 框架 代码 写 出 自己 的 BP 神经 网 络 程序 。 
实践 证 明 ， 反 向 传播 神经 网 络 对 数据 分 类 具有 很 强 的 非 线性 处 理 能 力 ， 如 通过 对 如 下 
坐标 平面 上 的 3 个 实心 圆 和 2 个 三 角形 用 神经 网 络 训练 10000 次 ， 再 用 训练 出 来 的 神经 
网 络 对 坐标 平面 上 所 有 的 25 个 点 进行 预测 ， 发 现 它 确实 能 做 出 令 人 惊异 的 非 线 性 预测 
结果 : 位 于 左上 角 和 右 下 角 被 准确 地 预测 为 三 角形 而 中 间 带 状 区 域 则 被 预测 圆 形 (如 图 


26-13 所 示 ， 虚 线 为 分 割 区 域 示 意 线 ) 。 


26-13 


实现 该 平面 形状 的 神经 网 络 学 习 和 


平面 形状 的 学 习 与 预测 


预测 的 完整 SAS 代码 如 程序 26-8 所 示 。 


程序 26-8 训练 5 个 点 对 平面 上 的 25 个 点 进行 分 类 


options cmplib- (work.funcs); 
data null ; 
/* 1) 构建 3 层 神经 网 络 */ 
array c[3] temporary ; 
c[1]2 2; c[2]-10; c[3]- 2; 


rate-0.35; mobp-0.8; 
/* 打 印 神经 网 络 基本 信息 */ 
ln=dim (c); 


put "NOTE: 神经 网 络 层 数 " ln '( 
do i-1 to dim(c) 


put c[i] " " ee; 
end; 
put ") rate- " rate "mobp- " 


' ee ; 


mobp; 


/*2) 准备 训练 数据 ， 是 一 个 5 f1 2 列 的 数据 */ 


array data[5,2] temporary ; 
data[1,1]- 0; data[1,2]- 0; 
data[2,1]- 1; data[2,2]- 1; 
data[3,1]- 1; data[3,2]- 3; 
data[4,1]- 3; data[4,2]- 1; 
data[5,1]- 3; data[5,2]- 3; 


/* 准 备 训练 数据 期 望 的 结果 ，(1 0) 表示 圆 形 ， 


array target[5,2] temporary ; 
target[1,1]- 1; target[1,2]- 
target[2,1]- 1; target[2,2] 
target[3,1]- 0; target[3,2] 
target[4,1]- 0; target[4,2] 
target[5,1]- 1; target[5,2] 


Wow wow 
orpoo 


(0,1) 表示 三 角形 */ 
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/*3) 准备 检验 数据 : 用 来 测试 训练 后 的 神经 网 络 是 否 有 效 */ 
array testdata[25,2] temporary ; 
do i-0 to 4; 
do j-0 to 4; 
k-(i*5*(j*1)); 
testdata[k, 
testdata[k, 
end; 
end; 


/* 用 于 接收 神经 网 络 预测 的 结果 ， 它 列 宽 和 target 一 样 ， 但 行 数 要 和 testdata 一 样 */ 
array testdata p[25,2] temporary ; 


/*4) 一 切 妥当 ， 训 练 10000 次 */ 

times-10000; 

rc-BpMain(data, target, c, rate, mobp, times, testdata,testdata p); 
put "NOTE: 训练 " times "次 后 神经 网 络 预测 结果 如 下 :"; 


/*5) 打印 神经 网 络 预测 的 结果 */ 
put "xl x2 ”实际 值 ” 实 际 值 ”预测 值 ”预测 值 " ; 


do i-1 to dim(testdata); 
/* 打 印 验 证 数据 */ 
do col-1 to dim(testdata,2); 
put testdata[i,col] " " @@; 
end; 
/* 若 是 训练 数据 ， 打 印 实际 数值 */ 
match row-0; 
do r-1 to dim(data); 
bmatch-1; 
do col-1 to dim(data,2); 
if testdata[i, col]^-data[r, col] then do; 
bmatch-0; 
leave;/*break*/ 
end; 
end; 
if bmatch-1 then do; 
match row-r; 
leave; /*break*/ 
end; 
end; 
if match row»0 then do; 
do col-1 to dim(target,2); 
put target[match row,col] 6.2 " " Qe; 
end; 
end; 
else do; 
do col-1 to dim(target,2); 
put * " Re; 
end; 
end; 
/* 打 印 预测 数据 */ 
do col-1 to dim(target,2); 
put testdata p[i,col] 6.2 " " Q6; 
end; 
pne scxs 
end; 
run; 
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end; 
end; 
if bmatch-1 then do; 
match row-r; 
leave; /*break*/ 
end; 
end; 
if match row>0 then do; 
do col-1 to dim(target,2); 
y[col]-target[match row,col]; 
put target[match row,col] 6.2 " " Qe; 
end; 
end; 
else do; 
do col-1 to dim(target,2); 
y[coll-.; 
put " " ee; 
end; 
end; 
/* 打 印 预测 数据 */ 
do col-1 to dim(target,2); 
z[col]=testdata p[i,col]; 
put testdata p[i,col] 6.2 " " @@; 
end; 
put " "^; 
output; 
end; 


此 时 ， 结 果 数 据 集 Result 中 包含 了 对 结果 的 预测 数据 ， 其 中 zl z2 列表 示 其 预 
测 出 来 的 形状 。 为 直观 展示 预测 结果 ， 应 基于 结果 数据 集 构建 Result2, 其 中 Shape=1 
表示 圆 ， 而 0 表示 三 角形 。 随 后 再 构建 一 个 属性 表 attr map 用 于 自 定义 SGPLOT 输出 
的 散 点 形状 。 最 后 用 SGPLOT 过 程 步 将 平面 上 的 25 个 点 绘制 出 来 ， 其 完整 代码 见 程 
序 26-10 所 示 。 


程序 26-10 将 预测 结果 用 SGPLOT 绘 图 
data Result2; 

set Result; 

shape- (z1>=z2) ;/* 生 成 形状 表示 1 表示 圆 ，0 表示 三 角形 */ 
run;; 


data attr_map;/* 创 建 属性 表 */ 
input id $ value $ fillcolor $ markercolor $ markersymbol $ ; 
datalines; 

idl 1 white red circle 

idl 0 white blue triangle 

run; 

proc sgplot data-result2 dattrmap=attr_map;/* 用 属性 表 进 行 分 组 */ 
scatter y-xl x-x2 / group-shape attrid-idl; 


xaxis grid; 
yaxis grid; 
run; 


输出 结果 如 下 图 26-14 所 示 。 
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实际 上 ， 神 经 网 络 领域 有 一 套 与 本 章 之 前 的 传统 数据 分 析 不 同 的 术语 体系 ， 读 者 在 
阅读 文献 的 时 候 要 特别 注意 。 统 计 学 中 的 变量 在 神经 网 络 领 域 被 称 为 特征 ， 独 立 变量 六 
被 称 为 输入 ， 依 赖 变量 了 被 称 为 目标 或 训练 值 ， 而 预测 值 则 被 称 为 输出 值 。 模 型 参数 估 
计 被 称 为 神经 网 络 的 训练 、 学 习 或 自 适应 过 程 ， 数 据 变换 也 被 称 为 函数 链 等 。 神 经 网 络 
领域 没有 传统 统计 中 的 总 体 和 样本 的 概念 ， 而 是 引入 了 训练 集 、 验 证 集 和 测试 集 等 数据 划 
分 概念 。 像 传统 的 判别 分 析 和 回归 分 析 这 种 预先 知道 结果 目标 值 了 的 神经 网 络 训练 被 称 为 
有 监督 学 习 ， 而 预先 不 知道 目标 值 了 的 聚 类 分 析 ， 其 神经 网 络 训 练 被 称 为 无 监督 学 习 。 

本 章 笔 者 基于 程序 员 思 路 开发 的 神经 网 络 模块 展示 了 如 何在 SAS 中 自己 开发 神经 网 
络 应 用 ， 但 实际 上 SAS 产品 线 中 提供 许多 非常 专业 的 神经 网 络 处 理 过程 步 ， 通 常 都 需要 
单独 的 软件 授权 方 可 使 用 。 在 多 层 感知 器 模型 的 神经 网 络 训练 中 ， 用 到 了 一 个 支持 无 限 
极 小 化 的 非 线性 目标 函数 ， 而 理论 上 至 今 也 没有 找到 寻找 目标 函数 全 局 最 小 值 的 确实 可 
行 办 法 ， 只 能 得 到 局 部 最 优 解 ， 因 此 一 般 实践 中 需要 采用 不 同 初 始 值 对 权重 进行 多 次 训 
练 并 进行 模型 比较 来 优化 选择 。 

SAS 系统 中 提供 了 各 种 专业 方法 对 神经 网 络 进行 训练 和 预测 ， 包 括 非 线 性 建 模 和 优 
化 程序 ，SAS/STAT 中 的 NLIN 过 程 步 ，SAS/ETS 中 的 MODEL 过 程 步 ，SAS/OR 中 的 
NLP 过 程 步 以 及 SAS/TML 中 的 NLP 子 例 程 ， 更 常见 的 是 使 用 EM 产品 中 的 NEURAL 
过 程 步 和 最 新 SAS VIYA 产品 中 的 NNET 过 程 步 做 神经 网 络 应 用 的 开发 。 

(I) PROC NEURAL 该 过 程 步 利 用 已 证 实 可 靠 的 统计 方法 和 数值 算法 ， 对 前 馈 神 
经 网 络 进行 训练 ， 其 中 INPUT、HIDDEN 和 TARGET 语句 分 别 用 来 定义 不 同 的 神经 网 
络 层 ， 每 个 神经 网 络 层 包 含 若干 作为 最 小 计算 实体 的 节点 或 神经 元 。 输 入 层 和 目标 层 节 
连接 必须 是 并 行 的 , 而 隐藏 层 则 可 串 行 或 并 行 连接 .PROC NEURAL 支持 11 种 激活 函数 ， 
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调用 它 之 前 需要 调用 PROC DMDB 来 创建 一 个 DMDB 编码 的 训练 集 和 一 个 DMDB 目录 
册 入 口 ， 感 兴趣 的 读者 自行 查看 帮助 文档 来 了 解 调用 细节 。 
(2) PROC NNET 是 SAS Viya 的 SAS Visual Data Mining & Machine Learning 8.1 产 
品 中 最 新 提供 的 过 程 步 ， 可 用 于 训练 多 层 感知 神经 网 络 ， 也 可 用 于 建立 高 性 能 编 解码 的 
自动 编码 器 CAutoEncoder) 以 提取 特征 和 执行 非 线 性 主 成 分 分 析 等 ， 它 可 很 方便 地 构建 
图 像 识别 等 领域 的 神经 网 络 。 另 外 ， 运 行 在 SAS CAS 服务 器 上 的 过 程 步 现 在 已 经 实现 
了 开放 调用 接口 ， 即 编程 人 员 可 使 用 Java、Python 或 Lua 语言 ， 以 及 SAS 运行 环境 中 
特别 提供 的 CASL 语言 调用 SAS 产品 中 的 强大 分 析 功 能 。 
比如 下 面 简短 的 SAS 代码 〈 见 程序 26-11) 对 经 典 的 房屋 贷款 数据 集 SAMPSIO. 
HMEQ 加 载 至 CAS 表 MYCASLIB.HMEQ 的 5960 条 房屋 贷款 申请 数据 (该 数据 集中 有 
个 变量 BAD 包 含 一 个 指示 贷款 申请 人 是 否 在 贷款 批准 后 还 清 贷款 还 是 拖欠 贷款 的 标志 )》 
进行 训练 ， 神 经 网 络 模 型 训练 结果 被 输出 到 MYCASLIB.MYNNETMODEL 中 用 于 进 一 
步 的 预测 。 结 果 表 明 该 模型 的 误 分 类 率 在 训练 集 、 验 证 集 和 测试 集 上 分 别 为 0.20，0.18 
和 0.20 左右 。 
程序 26-11 利用 NNET 对 房贷 数据 进行 训练 预测 
proc nnet data-mycaslib.hmeq standardize-midrange missing-mean; 
architecture mlp; 
input job reason / level=nominal;/* 输 入 层 */ 
input debtinc delinq loan mortdue value yoj derog clage clno; 


hidden 7;/* 隐 藏 层 */ 
target bad / level-nominal; /* 目 标 层 */ 


/* 优 化 算法 为 LBFGS 算 法 ， 也 可 指定 随机 梯度 下 降 算法 SGD; 最 大 迭代 次 数 500. 
LBFGS 全 称 Limited-memory Broyden-Fletcher-Goldfarb-Shanno 算 法 ; 
SGD 全 称 为 Stochastic Gradient Descent 算 法 */ 

optimization algorithm-lbfgs maxiter-500; 


train outmodel-mycaslib.mynnetmodel seed-12345; 

/* 将 数据 分 区 为 训练 集 70%, 验证 集 20% 和 测试 集 10%*/ 

partition fraction(validate-0.2 test-0.1 seed-54321); 
run; 
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数据 分 析 学 科 是 一 门 以 数据 为 基础 ， 以 各 种 分 析 方法 为 手段 获取 洞 见 〈Insight) 
和 智慧 〈Intelligence) 的 学 科 。 它 并 不 总 是 充满 了 令 人 生 旦 的 数学 公式 和 抽象 推导 
过 程 ， 而 是 基于 现实 世界 在 数字 空间 的 投影 ， 构 建 具 体 认 知 模型 的 有 趣 学 科 。 分 析 
方法 五 花 八 门 ， 相 关 书 籍 也 多 种 多 样 ， 然 而 ， 正 如 著名 统计 学 家 乔治 E.P. 博克 斯 
(George E. P. Box) 在 本 书 雇 页 所 指出 的 那样 : 模型 此 有 误 ， 或 尤 建 奇 功 。 其 实 也 
不 难 想象 ， 基 于 数据 构建 的 模型 难道 确实 是 现实 世界 的 精确 倒影 吗 ? 作为 数据 分 析 
的 镜子 可 以 照 见 现实 ， 其 影子 就 是 分 析 模 型 。 对 于 数据 分 析 学 科 而 言 ， 基 于 同样 的 
数据 ， 不 同 分 析 方法 能 得 出 不 同 的 结论 ， 至 于 是 否 与 现实 语义 匹配 ， 则 是 需要 结合 
实际 经 验 进行 解释 。 

笔者 曾经 深思 的 一 个 问题 是 ， 这 个 世界 上 是 否 存在 一 些 既 恒定 又 不 断 变化 的 数据 ， 
它 足 以 让 我 们 持续 地 探讨 其 恒定 背后 无 尽 的 变化 呢 ? 这 必须 在 数学 的 王国 中 寻找 它们 。 
数学 之 美 在 于 简洁 而 抽象 的 公式 所 隐 含 的 无 穷 变化 ， 以 及 某 些 数字 所 具有 的 奇特 性 质 ， 
如 各 种 无 理 数 ， 包 括 圆周 率 r， 自 然 对 数 的 底数 e 以 及 黄金 比率 o 等 。 这 些 数字 的 神奇 
之 处 在 于 它们 普遍 存在 于 各 种 复杂 的 数学 和 物理 公式 之 中 ， 似 乎 是 上 帝 对 这 个 世界 进行 
编程 的 控制 点 。 在 被 称 为 “< 上 帝 创造 的 公式 ”一 一 欧 拉 恒 等 式 中 , 五 个 最 基本 的 数学 常数 : 
常数 0， 自 然 数 1， 虚 数 单位 i， 圆周 率 x 和 自然 对 数 的 底 e 被 神秘 地 联系 在 一 起 : 

e™+1=0 

其 中 的 平方 等 于 -1，e 和 7 则 是 无 理 数 常数 ， 其 无 限 不 循环 小 数 部 分 强 含 着 无 穷 
无 尽 的 变化 。 作为 人 们 最 熟知 的 常数 ， 就 是 任何 一 个 圆 的 周 长 与 其 直径 的 比值 ， 称 为 
圆周 率 。 公 元 前 225 EIK (Archimedes) 通过 阿 基 米 德 算法 求 得 圆周 率 的 第 一 个 
严格 近似 值 223/71= (3.14048) < x < 22/7- (3.14285)， 精 确 到 小 数 点 后 两 位 数 ， 因 此 在 
西方 圆周 率 被 称 为 阿 基 米 德 常数 。 

目前 人 们 对 圆周 率 在 数学 上 的 确定 性 认识 主要 有 : 1761 年 ， 瑞 士 数 学 家 约翰 。 海 
因 里 希 。 朗 伯 〈Johann Heinrich Lambert). 证 明 是 一 个 无 理 数 ; 1794 年 ， 法 国 数学 家 
阿 德里 安 - 马里 。 勒 让 德 〈Adrien-Marie Legendre) 证 明 双 也 是 一 个 无 理 数 ;1882 年 ， 
德国 数学 家 费迪南德 y e pkt (Ferdinand von Lindemann) 证 明 x 是 一 个 超越 数 ， 
即 t 是 不 满足 任何 整 系数 多 项 式 方程 的 一 个 实数 ; 1953 年 ， 库 尔 特 。 马 勒 (KurtMahler) 
证 明 不 是 一 个 刘 维 尔 数 。 

然而 圆周 率 并 不 是 人 为 创造 的 一 个 常数 ， 而 是 在 现实 世界 中 自然 出 现 的 神奇 数值 ， 
所 有 与 圆 或 球 相关 的 运算 都 会 涉及 圆周 率 ， 不 仅 如 此 ， 它 还 出 现在 标准 正 态 分 布 的 概率 
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密度 函数 ， 以 及 薄 丰 投 针 试验 的 针 与 线 相交 的 概率 之 中 ，x 的 小 数位 包含 任何 一 个 自然 
数 ， 它 本 身 也 甚至 出 现在 所 有 自然 数 平方 的 倒数 之 和 也 1/ 甩 =e/16 之 中 ( 即 巴塞 尔 
问题 ) 。 

鉴于 x 值 的 独一无二 的 神奇 数学 特性 ， 且 人 类 至 今 对 其 分 析 特 性 了 解 不 多 ， 本 章 将 
探讨 如 何 用 SAS 对 无 理 数值 进行 精确 计算 并 尝试 分 析 研 究 其 数值 规律 ， 读 者 也 可 在 此 
计算 的 基础 上 构建 基准 数据 集 用 于 分 析 方 法 和 运算 性 能 的 评估 。 


27.1 niia 


圆周 率 的 计算 经 过 漫长 的 演进 ， 经 历 了 早期 的 几何 方法 到 后 来 的 代数 方法 ， 从 制 
圆 法 手工 计算 演进 到 后 来 的 电子 计算 机 自动 从 代 运算 ， 最 终 将 天 的 数值 计算 精度 推进 到 
2016 年 22.4 万 亿 位 级 别 的 历史 新 高 度 。 下 面 简要 回顾 r 值 的 计算 历史 及 思想 ， 然 后 用 
SAS 编程 实现 最 经 典 的 几 种 计算 方法 。 

1. 几何 方法 

很 早 以 前 古人 就 已 发 现 ， 一 个 圆 的 周 长 和 直径 之 比 是 一 个 与 圆 的 大 小 无 关 的 常数 。 
比如 公元 前 20 世纪 的 埃及 人 就 发 现 圆周 率 约 为 (16/9)=3.160493， 古 巴比伦 人 估计 出 圆 
周 率 为 3+1/8=3.125， 精 确 到 天 值 小 数 点 后 一 位 数 。 世 界 公 认 中 国 古 代 的 几何 学 者 做 得 
最 好 ， 主 要 贡献 者 为 中 国 古代 数学 家 刘 徽 ， 公 元 263 年 他 发 明 割 圆 术 为 计算 圆周 率 提供 
了 科学 方法 并 计算 出 微 率 157/50=3.14， 后 来 又 割 圆 至 3072 边 形 计算 出 更 好 的 圆周 率 
3927/1250=3.1416。 公 元 480 年 数学 家 祖冲之 计算 出 约 率 22/7 和 密 率 355/113， 后 世 科 学 
家 证 明 这 是 分 母 小 于 16604 中 最 接近 值 的 整数 表达 形式 ， 密 率 的 分 子 分 母 恰好 由 3 个 
成 对 奇数 113355 对 折 而 成 ，《 隋 书 。 律 历 志 》 明确 记载 祖 神 之 确定 了 圆周 率 的 真 值 介 
CFA 3.1415926 jÆ% 3.1415927 之 间 ， 成 功 将 圆周 率 推算 至 小 数 点 后 7 位 ， 从 此 中 
国 在 圆周 率 计算 上 的 领先 地 位 一 直 持续 到 15 世纪 。 

1427 年 ， 波 斯 数学 家 阿尔 。 卡 西 (ALKashi) 通过 分 别 计算 圆 的 内 接 / 外 接 正 32 边 
形 的 周 长 将 7 值 计算 精确 到 小 数 点 后 约 14 个 正确 值 ， 这 才 打 破 了 中 国人 保持 上 千年 的 
纪录 ， 后 来 他 的 领先 纪录 也 保持 了 200 年 左右 。 


2. 韦 达 公式 

1579 年 ， 法 国 数学 家 弗 朗 索 瓦 。 韦 达 (Franciscus Vieta) 是 最 早 明确 地 给 出 m ECC 
穷 解析 式 的 ， 人 类 从 此 摆脱 了 依赖 传统 几何 学 对 进行 求解 的 方法 ， 进 入 的 解析 求解 
时 代 。 韦 达 给 出 的 公式 为 


2 4424242444427 
T 2 2 2 


他 发 现 该 公式 的 思路 归功 于 正弦 和 余弦 函数 的 倍 角 公式 : sin(2x)=2sin(x)cos(x) 和 
cos(2x)=2cos*(x)-1。 根 据 正 弦 二 倍 角 公式 有 sinCo)=2sin(x/2)cosCx/2)， 通 过 利用 sin(x/2) 代 
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入 不 断 迭 代 即 可 得 


sing) =2sin [4 Jeos( mim es (3e (3)-7 sio( Eres (4) 


sinx 2 
将 方程 两 边 除 以 x 可 得 一 一 = s (3 ]TT. ex(3 3, 两 边 取 极限 且 由 于 存在 


E 


此 时 令 x2 代入 上 面 的 方程 即 得 


ze eo (3 jeos ]eos( Z }-- 


此 时 再 根据 三 角 函 数 余弦 二 倍 角 公式 有 


GE E 
cos(o)=2cosz(x/2)-1 推出 
代入 上 式 即 得 韦 达 公 式 : 
n 4 8 16 2 2 2 


尽管 韦 达 将 圆周 率 求解 精度 推进 到 小 数 点 后 9 位 数 ， 其 方法 本 质 上 还 是 多 边 形 法 。 
后 世 数学 家 依然 在 计算 圆周 率 上 耗费 了 大 量 的 精力 ， 如 德国 数学 家 鲁 道夫 。 范 。 科 伊 伦 
CLudolph Van Ceulen) 几乎 耗 尽 一 生 的 时 间 采 用 阿 基 米 德 割 圆 法 计算 圆周 率 ， 并 在 1609 
年 获得 了 圆周 率 35 位 精度 值 ， 即 介 于 3.14159 26535 89793 23846 26433 83279 50288 和 
3.14159 26535 89793 23846 26433 83279 50289 之 间 。 他 对 该 成 就 感到 非常 自豪 因此 将 35 
位 圆周 率 刻 在 自己 墓碑 上 ， 而 圆周 率 至 今 在 德国 依然 被 称 为 鲁 道夫 数 。 然 而 以 上 这 些 方 
法 主要 是 几何 求解 方法 ， 其 计算 效率 和 精度 有 限 。 
3. 梅 钦 公式 
1669 年 ， 艾 萨 克 。 和 牛顿 (Isaac Newton) 和 和 詹姆斯。 格雷 戈 里 〈James Gregory) 分 
别提 出 了 三 角 函 数 arcsin 和 arctan 的 级 数 展开 式 ， 开 启 了 解析 方法 计算 的 新 时 代 。r 
求解 方法 最 大 的 突破 是 找到 快速 收敛 的 反正 切 公式 ， 这 和 归功 于 1706 年 的 英国 数学 家 约 
翰 。 梅 钦 〈John Machin) 发 现 的 梅 钦 公 式 。 同 年 ， 威 尔 士 数学 家 威廉 。 琼 斯 (William 
Jones) 首先 使 用 天 符号 作为 圆 的 周 长 和 直径 的 比值 ， 该 数学 符号 后 来 因 1737 年 欧 拉 
(uler) 在 其 著作 中 使 用 而 被 数学 家 广泛 接纳 沿用 至 今 。 约 翰 。 梅 钦 也 是 第 一 个 将 圆周 
率 手 动 计算 突破 100 位 小 数 大 关 的 人 。 
梅 钦 公式 以 及 后 世 梅 钦 类 公式 的 原理 如 下 ， 它 们 都 是 从 角 的 和 差 公式 中 导出 : 对 于 
两 个 角 a 和 pp， 它 们 角 之 和 的 正弦 和 余弦 公式 为 : 
cos(a + B) = cos(æ)cos( £) — sin(a)sin() 
sin(a + B) = sin(a)cos() + cos(a)sin() 
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其 中 当 一 于 <aretan(a / b) +arctan(a, bb)< 节 时 有 如 下 方程 成 立 : 


ab, + a,b, | 


arctan(a, / b) + arctan(a, / bj) = act 
bb, -aa, 


Ln, ?4a-azl,. bj7b;-5 Bb, A 
(5) E (&) 
2arctan — arctan — arctan 
5 5x5-1xl 18 


1 5 5x1245x12 120 
MAES anin 5 | -2erofan| 2- | aritan| 2E? | [129 
MEH taro 日 ( 司 [| M (z) 


由 于 arctan() = A ， 则 


11 x 120 1 120 -1 
LH "a - arctan 222) 一 arctan) = arctan (120) + arctan =) 
Hla,72120, a7119, bj—-1, b=1 代入 公式 得 
11 x 120 -1 
darian Z) "A - [55] * aret) 
E sno BG |- arcton [335 | 
119x1—120x (-1) 239 
左右 移 位 即 得 到 梅 钦 公式 如 下 : 
A 1 1 
Fi ex sarcan(1]- aean| 1] 
其 中 arctan x 可 由 泰勒 级 数 展开 进行 运算 。 基 于 梅 钦 公 式 英国 数学 家 威廉 。 向 克 斯 
CWilliam Shanks) 花 了 近 15 年 时 间 于 1873 年 计算 出 圆周 率 小 数 点 后 707 位 。 
由 于 梅 钦 公式 并 不 是 收敛 最 快 的 求解 公式 ， 数 学 家 们 还 导出 一 系列 与 梅 钦 公式 相似 
的 公式 ， 称 为 梅 钦 类 公式 。 实 际 上 所 有 的 梅 钦 类 公式 主要 是 根据 上 面 的 方程 反复 构造 所 
得 ， 下 面 列 出 了 若干 梅 钦 类 公式 实例 : 


E cina (5) 8arcian( L ) -saretan 1] (Gauss) 

4 18 57 239 

T 1 1 1 

== 4arm| +) 一 arctan +) + EJ (Euler, E1) 
4 5. 70 99 

E. Sarctan( 1 ) 2arctan( 3 ) (Euler, E2) 
4 7 29. 

E. arctan (3) 十 arctan [3 (Euler, E3) 
4 2 3 


梅 钦 类 公式 是 使 用 广泛 的 计算 方法 ， 总 有 不 少数 学 家 不 断 发 现 类 似 公式 。 比 如 
1982 年 日 本 数学 家 兼 诗人 高 野 喜 久 雄 (Kikuo Takano) 发 现 的 梅 钦 类 公式 为 : 


E-inacta( 3 e 32arctan ES + lacen Tn 
4 49 57 239 110443 


本 本 加 加 量子 人 SAS 技 术 内 幕 : 从 程序 员 到 数据 科学 家 


对 于 威廉 。 向 克 斯 计算 出 的 707 位 结果 ， 在 70 多 年 后 数学 家 弗格森 CD. F. 
Ferguson) 对 其 中 前 608 个 数字 的 出 现 频率 进行 统计 后 发 现 0~9 十 个 数字 出 现 次 数 并 
不 基本 相同 ， 于 是 他 怀疑 向 克 斯 计算 结果 的 正确 性 ， 并 在 1944 年 5 月 开始 重新 计算 
了 一 年 多 , 于 1946 年 确认 威廉 向 克 斯 的 707 位 结果 很 遗憾 地 在 第 528 位 开始 出 错 了 。 
弗格森 是 用 计算 器 计算 圆周 率 小 数 点 后 位 数 精确 到 620 位 (1946 Œ) 的 人 ， 而 1949 
年 之 前 利用 非 计 算 机 计算 圆周 率 的 最 高 纪录 是 1120 位 ， 之 后 就 进入 用 计算 机 计算 的 
时 代 。 

4. 拉 玛 努 金 公式 

1910 年 ， 最 富 直觉 的 印度 天 才 数 学 家 斯 里 尼 瓦 瑟 。 拉 玛 努 金 (Srinivasa Ramanujan) 
在 梅 钦 类 公式 之 外 开辟 了 拉 玛 努 金 公式 。 他 任 着 对 数字 无 与 伦比 的 直觉 探讨 了 zt 的 几何 
构造 近似 值 (3, 22/7, 355/113…) 并 发 现 众 多 值 计算 方 法 ， 并 于 1910 年 发 表 了 若干 个 
快速 收敛 的 无 限 级 数 ， 其 中 每 计算 一 项 都 可 获得 8 位 数 的 有 效 精度 。 他 的 思维 方法 充满 
天 才 的 直觉 性 ， 别 人 很 难 弄 懂 他 是 如 何 导出 这 些 公式 。 他 自称 是 从 神 那 里 得 到 这 些 可 极 
大 降低 计算 量 的 x 值 计算 公式 ， 其 中 一 个 与 整数 相关 的 简洁 公式 为 


1 28/2 Y (4k!) (11034-26390) 2X2 & (4k!)1103.- 26390) 
x 98014 (k1)!4** 99** . 9801 & (Kk 396** 
5. 计算 机 求解 时 代 


1949 年 ， 美 国 马里 兰州 的 阿 伯 丁 军队 弹道 研究 实验 室 的 数学 家 约翰 。 伦 奇 (John 
Wrench) 等 人 用 人 类 历史 上 的 的 第 一 台 计 算 机 ENIAC) 耗费 70 小 时 计算 出 了 2037 
位 小 数 ， 首 次 实现 用 计算 机 计算 圆周 率 突破 千 位 小 数 大 关 。 圆 周 率 的 计算 从 此 进入 了 
计算 机 时 代 ， 之 后 由 于 计算 机 技术 的 发 展 ， 到 1973 年 人 类 已 经 将 圆周 率 的 小 数位 计 
算 推进 到 100 万 位 。 

1987 年 ,美国 数学 家 楚 德 诺 夫 斯 基 兄 弟 (David Chudnovsky & Gregory Chudnovsky) 
在 拉 玛 努 金 公式 的 基础 上 改良 出 楚 德 诺 夫 斯 基 公 式 ， 该 公式 每 计算 一 项 可 以 得 到 15 位 
的 十 进 制 精度 。1994 年 , 楚 德 诺 夫 斯 基 兄 弟 俩 利用 该 公式 算出 圆周 率 小 数 点 后 40 亿 位 
数字 ， 据 说 Wolfram Mathematica 就 是 用 该 算法 计算 x (BB. 

1 QR. e (6k)! (545140134k+13591409) 
x MC GOEY 


3e 
640320 ? 
(6k)1545140134k 413591409) 


pvc 
s ^ " PE 
GEED 640320 ? 
等 价 于 : 
426880V10005 
CC (6E) 545140134K +13591409) 
1-9 — (BK) (-640320)* 
其 中 下 值 越 大 ， 则 zc 值 越 精确 。 


T 
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6. 迭代 计算 方法 

除了 梅 钦 公式 和 拉 玛 努 金 公式 之 外 ， 人 们 还 找到 迭代 计算 圆周 率 的 算法 。 

(1) 1975 年 ， 尤 金 。 萨 拉 明 (Eugene Salamin) 和 理 查 德 。P. 布 伦 特 (Richard 
Peirce Brent) 各 自 独 立 发 现 了 一 个 新 的 二 次 收敛 和 迭代 公式 用 于 高 精度 圆周 率 快 速 计算 ， 
称 为 萨 拉 明 一 布 伦 特 算法 。 该 公式 每 经 过 一 次 计算 ， 有 效 位 数 就 会 加 倍 。 萨 拉 明 一 布 伦 
特 算法 的 原理 如 下 : 

设置 初 值 x =L y=1/V2,ao =1/4, p, =1 反复 执行 如 下 步骤 直到 xx RU y, Ze IRL f 
差 小 于 指定 阔 值 为 止 : 

Xea = (X 3,)/2, 

Yea LU 

ak = Ap — Pr (Xk — Xy F, 
Prn =2Pr 

则 最 终 求 得 近似 值 xx Ga + YaY Aaa) ， 称 为 萨 拉 明 一 布 伦 特 算法 。 

(2) 后 来 人 们 发 现 卡 尔 。 弗 里 德里 希 。 高 斯 (1777 一 1855) 以 前 也 发 现 过 类 似 但 
更 复杂 的 公式 ， 从 而 衍生 出 快速 收敛 的 高 斯 一 勒 让 德 算法 ， 其 基本 原理 如 下 : 

设置 初 值 x =L yo =1/ V2, a =1/2 反复 执行 如 下 步骤 计算 两 个 数 的 算术 平均 值 和 
几何 平均 值 ， 以 逼近 其 算术 一 几何 平均 值 : 

Xu = We y)/2 


PRENDS 
Aku =a 一 2" a A Ss) 

Wkk, din-limQx!/a) ， 称 为 高 斯 一 勒 让 德 二 次 型。 

由 于 该 算法 每 迭代 一 次 可 得 双 倍 的 十 进 制 精度 ， 计 算 百 万 位 只 需 迭 代 20 次 即 
可 。1999 年 9 月 , 日 本 的 高 桥 大 介 和 人 金田 康正 用 高 斯 一 勒 让 德 公 式 计 算 了 圆周 率 
的 2061 亿 位 数字 ， 创 造 了 当时 新 的 世界 纪录 。 著 名 的 计算 机 性 能 评估 程序 Super PI 和 
Hyper PI 就 是 使 用 此 算法 来 评估 计算 机 中 央 处 理 器 在 特定 内 存 硬 件 条 件 下 的 运算 性 能 。 

G) 类 似 的 迭代 算法 还 有 波 尔 文 二 次 迭代 式 (Borwein Quadratic) ， 其 原 
理 如 下 : 

设置 初 值 m =V2, y, =0, a =2+ V2 反复 执行 如 下 步骤 : 

ma = 


则 当 k 一 时，T= lma ， 称 为 波 尔 文 二 次 迭代 式 。 
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1985 Æ, W -e WRX C Peter Borwein) 和 乔纳森 。 波 尔 文 (Jonathan Borwein) 
发 现 了 收敛 更 快 的 波 尔 文 四 次 迭代 式 。 其 原理 如 下 : 


设置 初 值 y = V2 -1 a =6- 4V2 反复 执行 如 下 步 又 : 


»a 7 (Hm)/(+ 40-79) 


dj - 0-- y'a, a) 


则 当 一 时，7T= lim1/ a;， 称 为 波 尔 文 四 次 迭代 式 。 

(4) 1996 年 11 月 由 大 卫 。 贝 利 (David Bailey) 、 彼 得 。 波 尔 文 (Peter 
Borwein) 和 西蒙 。 普 劳 夫 (Simon Plouffe) 共同 发 表 的 贝 利 一 波 尔 文 一 普 劳 夫 公式 〈 简 
Tk BPP AR) 是 划时代 的 圆周 率 算 法 ， 它 能 计算 圆周 率 的 任意 第 ”位 二 进 制 或 十 六 进 制 
小 数 而 不 需要 先 计算 前 面 的 n-l 位 数字 ， 算 法 复杂 度 为 Oozlog(x))， 该 算法 使 得 分 布 式 
并 行 计 算 圆周 率 成 为 可 能 。BBP 计算 的 公式 为 


25 Hinh om wes owe 
£46 8k-1 8k-4 8k«-5 8k«6 

1997 年 ， 法 国 天 才 程 序 员 法 布 里 斯 。 贝 拉 〈Fabrice Bellard) 发 现 了 更 加 高 效 的 
BBP 算法 变 体 一 一 贝 拉 公式 〈 如 下 ) 。 其 计算 复杂 度 为 O(n”))， 比 西蒙 。 普 劳 夫 在 论文 
On the Computation of the n th Decimal Digit of Various Transcendental Numbers 中 描述 的 算 
法 更 快 约 43%。 他 曾 在 2009 年 末 宣 称 其 程序 在 90 天 内 计算 出 了 zt 的 2.69 万 亿 位 小 数 ， 
该 算法 至 今 依然 是 计算 机 求解 + 值 最 好 的 算法 之 一 。 
a 人 

2624 27 | 4k+1 4k+3 10k+1 10k+3 10k«5 10k+7 10k+9 

2010 年 以 后 大 部 分 圆周 率 研究 者 都 是 基于 余 智 恒 (Alexander J. Yee) 的 y-cruncher 
多 线程 程序 进行 n 值 计算 ，2016 年 彼得 。 楚 伯 (Peter Trueb) 基于 y-Cruncher 计算 出 x 
的 22.46 万 亿 位 小 数 (22,459,157,718.361). ， 创 造 当 时 的 最 高 纪录 。 

7. 积分 和 概率 方法 

除了 前 面 的 数学 解析 方法 求解 工 值 外 ， 还 可 以 借助 计算 机 利用 微 积分 方法 和 概率 方 
法 计算 «+ 值 。 其 中 前 者 借助 三 角 函 数 在 特定 区 间 的 面积 计算 来 模拟 ， 后 者 则 根据 特定 分 
布 规律 的 投 点 求 积 进行 模拟 ， 包 括 简 单 的 蒙特 卡 罗 方 法 和 蒲 丰 投 针 方 法 。 图 27-1 总 结 了 
圆周 率 的 主要 计算 历史 。 
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图 27-1 圆周 率 的 计算 史 
下 面 从 简单 到 复杂 探索 如 何 编写 SAS 程序 计算 7 值 ， 以 及 如 何 突 破 数据 类 型 限制 求 
解 小 数 点 后 任意 位 数 的 精确 值 ， 最 后 探讨 如 何 利用 SAS 对 值 进行 分 析 研 究 。 


27.1.1 蒙特 卡 罗 方 法 


如 图 27-2 所 示 ， 从 的 几何 学 定义 可 知 ， 在 边 长 为 1 的 正方 形 内 ， 如 果 投 点 遵从 
均匀 分 布 ， 则 投 点 落 正 方形 内 切 四 分 之 一 圆 内 的 个 数 在 投 点 数量 足够 大 时 ， 就 是 其 内 
切 1/4 圆 形 的 面积 ww4。 因 此 对 于 我 们 均匀 分 布 的 投 点 (x, y), in RE xy! p Op 
r-D 表示 投 点 落 在 圆 内 ， 否 则 就 落 在 圆 外 。 因 此 ， 如 果 我 们 在 平面 上 投掷 的 点 数 足够 


1 
0.8 
0.6 


0.4 


02[p:: 


一 一 一 一 
图 27-2 ”蒙特 卡 罗 方法 
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多 的 话 ， 我 们 将 可 计算 出 LA 圆 的 面积 ， 由 于 我 们 取 半 径 为 1， 则 其 面积 应 该 是 w4。 基 
于 此 思想 我 们 可 实现 求 x 的 SAS 代码 如 程序 27-1 所 示 。 


程序 27-1 蒙特 卡 罗 概率 方法 直观 计算 PI 值 
data null ; 
st-datetime(); 


n-100000000; /*1838 1 亿 次 */ 
retain m 0; 
do i-1 to n; 
x=rand ("UNIFORM") ; 
y=rand ("UNIFORM"); /* 要 求 满足 均匀 分 布 */ 
if x * x + y* y <= 1 then m=mt+l1;/* 落 在 圆 内 的 个 数 */ 
end; 
pi =4 * m / n; 
put pi= best.; 


et-datetime(); 


ptzet-st; 
put "计算 耗 时 ，"” pt timel0.3" m/n: "m "/"mn ; 
run; 


系统 输出 为 pi=3.14160516。 


需要 注意 的 一 点 是 ， 由 于 是 采用 随机 投 点 方法 ， 要 求 随机 数 必须 服从 均匀 分 布 
而 非 正 态 分 布 ， 它 在 二 维 平 面 上 要 求 具有 等 概率 投 点 ， 否 则 上 面 的 计算 是 无 效 的 。 
基于 这 种 投 点 法 计算 出 的 r 值 并 不 稳定 ， 研 究 表明 波动 性 较 大 ， 且 小 数 点 后 的 位 数 
是 有 限 的 。 


27.1.2 FIDA 


1777 年 ， 法 国 数学 家 蒲 丰 (Buffon). 发 现 的 蒲 丰 投 针 问题 ， 为 利用 计算 机 模拟 来 
计算 Tz 值 提供 一 种 概率 求解 方法 。 薄 丰 投 针 问题 是 说 ， 在 平面 上 画 有 间距 为 a(a > 0) 
的 一 系列 平行 线 ， 然 后 向 该 平面 上 随机 投掷 长 度 为 1(1 — a) 的 针 ， 则 蒲 丰 证 明 针 与 任 
一 平行 线 相交 的 概率 为 21/ax， 当 针 长 1 为 a/2 时 ， 其 概率 为 /x。 甚 至 可 以 证 明 长 度 为 
1 的 铁丝 扔 在 平面 上 与 平行 线 交点 个 数 的 期 望 值 与 铁丝 的 弯曲 形状 无 关 ， 而 是 与 长 度 7 
成 正比 。 比 较 直 观 的 例子 是 将 长 度 为 的 铁丝 弯曲 成 一 个 直径 为 1 的 正 圆 投掷 在 间距 
为 1 的 平行 线 上 总 是 有 2 个 交点 。 

蒲 丰 投 针 思 想 的 证 明 如 下 〈 见 图 27-3) : 假定 长 度 为 1 的 针 中 点 为 M， 它 与 最 近 的 
一 条 平行 线 的 距离 为 x， 夹 角 为 y»， 则 满足 0 三 x 夺 a/2 且 0y 志 xr。 也 就 是 说 在 右 侧 
坐标 地平 面 中 为 了 使 得 针 与 平行 线 有 交点 ， 中 点 到 底线 的 距离 必须 小 于 等 于 针 长 度 的 一 
FRA sin), 即 x 科 12sin0)。 因 此 , 它 对 应 于 右 侧 以 xy 为 坐标 轴 的 曲线 下 方 的 灰色 区 域 。 
对 于 分 布 在 a/2 A x 空间 中 服从 均匀 分 布 的 随机 点 ， 落 入 阴影 部 分 的 概率 p 为 阴影 面积 


J 上 3sin() d 和 算 形 总 面积 wal2 的 比 ， 其 值 等 于 21ar 。 
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图 27-3 ” 蒲 丰 投 针 方法 


为 简化 计算 ， 假 定 针 的 长 度 三 1， 平 行 线 的 间距 a=2 来 进行 薄 丰 投 针 试 验 ， 其 完整 
SAS 实现 代码 如 程序 27-2 所 示 : 


程序 27-2 薄 丰 投 针 概率 方法 计算 PI f 
data null ; 
st-datetime(); 


n-10000000; 
retain m 0; 


d-2; 

do i-1 to n; 
x-rand("UNIFORM"); /* 0 - a/2 */ 
y-rand("UNIFORM")* constant ("PI"); /* 0 - m */ 


if x«(1/2) * sin(y) then m-m*1; 
end; 
p= m/n; 
pi =1 / pi 
put pi= best.; 


et-datetime(); 


pt-et-st; 
put "计算 耗 时 : " pt timelO.3" 命中 次 数 / 投 针 次 数 : "om U/" n ; 
run; 


系统 输出 为 pi-3.142160122 

计算 耗 时 0:00:01.02 命中 次 数 / 投 针 次 数 : 3182524 /10000000 

程序 27-2 输出 显示 蒲 丰 投 针 程序 计算 结果 的 精度 很 低 ， 且 由 于 该 程序 引用 了 系统 预 
定义 的 常数 constant(" PT") 和 三 角 函 数 sin(y)， 而 它们 本 身 都 与 待 求 的 x 值 有 关 ， 因 此 严 
格 意义 上 讲 该 程序 并 非 基于 自然 数 的 四 则 运算 求 得 ， 只 能 作为 一 种 理论 上 的 验证 程序 ， 
小 数 点 后 的 精确 位 数 依然 非常 少 。 


27.1.3” 微 积分 方法 


由 于 数学 上 已 经 证 明 反 正切 函数 y=arctan(x) 有 dy=1/(1+x”)dx。 而 已 知 当 x=1 时 
有 arctan(1)=x/4， 因 此 x 就 是 函数 fx)=1/(1+x”) 在 区 间 x € [0, 1] 面积 的 4 倍 ( 见 
图 27-4) 。 
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arctan x=1/ (1322) 


图 27-4 arctan 函数 微 积分 方法 


计算 积分 的 思路 就 是 将 函数 tx) 和 x 轴 之 间 的 面积 无 限 分 割 成 许多 小 矩形 单元 ， 计 
算 每 个 小 矩形 单元 的 面积 求 和 。 当 分 割 得 足够 小 时 ， 该 函数 与 x 轴 围 成 的 面积 将 近 无 限 
接近 rz4。 因 此 分 割 单元 数 是 精度 控制 的 关键 ， 程 序 27-3 将 区 间 x € [0, -1] 分 成 1000 
万 个 小 单元 实现 x 值 计算 。 


程序 27-3 ”函数 微 积分 方法 
data null ; 
st-datetime(); 


n-10000000; /* 分 割 成 一 干 万 个 小 单元 */ 
dx=1/n; 
x-0; 
y-0; 
do k-1 to n; 
x-x + dx; 
dy-1/ (1* x * x ); 
y=y+ dy: 
end; 
y= dx* y * 4; 
put y- best.; 


et-datetime(); 


pt-et-st; 
put "计算 耗 时 : " pt timel0.2 ; 
run; 
系统 输出 如 下 ， 计 算 已 经 能 够 精确 到 小 数 点 后 6 位 数 。 


y-3.141592 
计算 耗 时 ，0:00:00.08 


27.1.4 mRNA 


微 积分 方法 固然 不 错 ， 但 如 果 能 够 把 计算 式 表示 为 无 穷 级 数 序列 ， 则 可 将 计算 精度 
提高 一 个 层次 。 根 据 反 正切 函数 的 泰勒 级 数 展开 可 知 : 


arctan(x) = Ze 。 zn = až ES £ 4e CD x99 Lok 1) 
当 取 特殊 值 时 x=1,， 有 arctan(1)=x/4, 则 该 公式 建立 了 zt 和 无 穷 级 数 序列 之 间 的 关系 ， 


此 时 得 到 如 下 公式 ， 被 称 为 下 的 莱 布 尼 茨 公式 。 
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Hp o-o, kn 表示 需要 计算 的 项 数 。 实 际 上 ， 窜 级 数 方法 并 不 只 是 上 面 的 一 
种 方法 ， 而 是 一 序列 类 似 机 制 的 方法 之 总 称 。 基 于 上 面 的 公式 我 们 很 容易 写 出 如 下 莱 布 
尼 茨 震级 数 实现 程序 27-4 如 下 : 


程序 27-4 ， 莱 布 尼 茨 宕 级 数 方法 
data null; 
b-1; /*238* / 
y=1;  /*XKH/ 
sign=1;/* 符 号 */ 
cnt-10000000; /* 前 面 1 千 万 项 */ 
do k=0 to cnt-1; 
b=b+2; 
sign-sign* -1; 
y=y+ sign / b; 
end; 
y-y * i 
put y= best.; 
run; 


系统 输出 ，y=3.1415927536， 如 果 再 额外 计算 一 个 级 数 项 ， 则 输出 为 y-3.1415925536. 


从 上 面 计算 可 知 ， 计 算 前 面 10000000 项 也 只 能 算出 小 数 点 后 10 位 数 ， 并 且 由 于 奇 
偶数 项 的 符号 相反 ， 收 敛 不 是 很 快 。 当 然 除 了 上 面 的 莱 布 尼 芯 级 数 公 式 ， 也 可 以 使 用 其 
他 震级 数 公式 来 计算 nf, kein FER m2 递增 级 数 计算 公式 : 

mA/2=1+1/3x2/5+LSx2/5x3/7 十 .… 

编程 时 除了 从 级 数 的 项 数 进行 控制 外 , 也 可 以 利用 每 一 级 数 项 的 贡献 大 小 进行 控制 ， 
比如 某 项 的 贡献 小 于 10 时 即 可 结束 计算 〈 见 程序 27-5) 。 可 以 看 到 系统 输出 跟 上 面 
程序 输出 稍 有 不 同 ， 但 可 看 出 x 确实 在 3.1415926 ~ 3.1415927， 基 本 上 达到 了 这 种 方法 
所 能 达到 的 精度 极限 。 


程序 27-5 ”单调 递增 的 宕 级 数 方法 
data null ; 
a-l; b-3; 
x-2; 
y=x; 
do while ( x>1E-15); /* 用 单项 贡献 控制 精度 */ 
x-x * a/b; 
y=y+x; 
a-atl; 
b=b+2; 
end; 
put y= best.; 
run; 


系统 输出 : y-3.1415926536 
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27.4.55 ” 窜 级 数 高 精度 方法 


前 文 尝试 了 蒙特 卡 罗 方 法 、 薄 丰 投 针 方法 、 微 积 方法 和 徊 级 数 方法 计算 z+ 值 ， 但 所 
得 结果 的 精度 往往 不 超过 小 数 点 后 10 位 数 ， 部 分 算法 计算 不 稳定 且 不 精确 ， 而 导致 不 
精确 的 原因 不 仅 是 采用 计算 方法 的 原因 ， 还 有 在 计算 过 程 中 使 用 了 计算 机 系统 中 默认 的 
浮 点 数 存储 表示 。 编 程 语言 包括 C/C++ 通常 在 内 部 采用 32 位 或 64 位 来 表示 单 精度 或 双 
精度 浮 点 数 ， 由 于 数据 存储 的 空间 有 限 ， 精 度 损失 在 所 难免 。 如 果 要 获得 高 精度 的 r 值 
计算 ， 不 但 要 使 用 无 穷 级 数 的 方法 ， 还 要 在 计算 过 程 中 设计 精度 保持 机 制 ， 其 原理 就 是 
利用 数组 来 存储 部 分 十 进 制 位 ， 利 用 数组 长 度 来 控制 所 能 计算 的 数值 范围 ， 最 后 基于 这 


种 存储 结构 来 编写 运算 规则 ， 包 括 基 础 的 四 则 运算 。 


假定 要 计算 n 小 数 点 后 1000 位 数字 ， 就 要 分 配 一 个 1000 个 元 素 的 数组 来 存储 数 
据 的 每 一 位 数 ， 每 个 元 素 对 应 于 小 数 点 后 的 每 一 位 数字 ; 然后 将 加 法 的 进位 ， 减 法 的 借 
人 从 而 保留 精度 以 免 丢 失 。 下 面 以 单调 递增 的 震 


12.123 
makii 5+5x5x7+… 为 例 来 实现 〈 见 程序 27-6) 。 
程序 27-6 单调 递增 的 宕 级 数 方法 ， 增 加 精度 保持 特性 
data null ; 
st-datetime(); 
1-1000; /* 小 数 点 后 位 数 */ 
L MAX=L+1; /* 小 数 点 后 位 数 加 上 个 位 数 共 1001 位 */ 
array x[1001]; /+ 小 数 点 前 后 总 位 数 */ 
array y[1001]; /+ 小 数 点 前 后 总 位 数 */ 
a-l; b-3; 
do i-1 to L MAX; 
x[i]-0; 
ylil-0; 
end; 
x[1]-2 
y[1]=x[1]; 


N_MAX=constant ("BIG"); /* 最 大 迭代 次 数 , 可 制定 具体 值 来 限定 最 大 项 数 */ 


n-0; bContinue-1; 
do while( n« N MAX & bContinue-1); 
/* 实现 x-x * a */ 
carry-0; 
do i-L MAX to 1 by -1; 
c-x[i] * a + carry; 
x[i]= mod(c, 10); 
carry = floor( c / 10); 
end; 
/* 实现 x-x / b */ 
remain=0; 
do i-1 to L MAX; 
c = x[i] + remain * 10; 
x[i] = floor(c /b); 
remain - mod(c, b); 
end; 


/* 实现 y=y + x */ 
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bContinue-0; 
do i-L MAX to 2 by -1; 
c-yli] + xli]; 
yli]-mod(c, 10); 
carry-floor( c / 10); 
yli-1] = yli-1] + carry; 
if x[i]»0 then bContinue-1; /* 不 收敛 则 继续 */ 
end; 
n-ntl; 
a-atl; b-b*2; 


end; 


length s $ 32767; /+* 输 出 字符 串 长 度 */ 


sz" 


do i-1 to L MAX; 
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if i-2 then s-trim(left(s)) || "."; 
if mod(i-3,5)-4 then s-trim(left(s)) || " " |] trim(left(y[il)):; 
else s-trim(left(s)) || trim(left(y[il)); 

end; 


put "计算 结果 : "s; 
put "计算 位 数 : "on; 


et=datetime(); 

pt=et-st; 

if pt>0 then speed=n/pt; 
put "计算 耗 时 ，"” pt time. " 迭代 次 数 : " n " 计算 速度 ， " speed " 次 / 秒 "; 


run; 


de 


为 显示 和 检查 方便 ， 下 面 的 结果 每 行 限定 为 50 位 数字 。 


行 上 面 的 程序 ， 系 统 将 输出 天 小数 点 后 1000 位 。 改 变 工 值 可 以 输出 指定 长 度 的 
n I. 


计算 位 数 : 1000 计算 耗 时 :0:00:00 迭代 次 数 :3316 计算 速度 : 9110 次 / Æ 
计算 结果 : 3. 


14159 26535 89793 23846 26433 83279 50288 41971 69399 37510 
58209 74944 59230 78164 06286 20899 86280 34825 34211 70679 
8 08651 32823 06647 09384 46095 50582 23172 53594 08128 
1 74502 84102 70193 85211 05559 64462 29489 54930 38196 
44288 10975 66593 34461 28475 64823 37867 83165 27120 19091 
8 56692 34603 48610 45432 66482 13393 60726 02491 41273 
72458 70066 06315 58817 48815 20920 96282 92540 91715 36436 
78925 90360 01133 05305 48820 46652 13841 46951 94151 16094 
33057 27036 57595 91953 09218 61173 81932 61179 31051 18548 
6 23799 62749 56735 18857 52724 89122 79381 83011 94912 
98336 73362 44065 66430 86021 39494 63952 24737 19070 21798 
3 70277 05392 17176 29317 67523 84674 81846 76694 05132 
00056 81271 45263 56082 77857 71342 75778 96091 73637 17872 
14684 40901 22495 34301 46549 58537 10507 92279 68925 89235 
42019 95611 21290 21960 86403 44181 59813 62977 47713 09960 
51870 72113 49999 99837 29780 49951 05973 17328 16096 31859 
4 59455 34690 83026 42522 30825 33446 85035 26193 11881 
0 00313 78387 52886 58753 32083 81420 61717 76691 47303 
59825 34904 28755 46873 11595 62863 88235 37875 93751 95778 
18577 80532 17122 68066 13001 92787 66111 95909 21641 98681 


至 此 ， 似 乎 到 达 了 寻求 精确 (ERR rx. FAT EINBUTGAAKIATGEDER: 四 计算 虽然 


8214 
4811 


4564 


0744 


6094 


5024 
7101 


能 求 出 指定 位 数 的 x 值 ， 但 检查 发 现 最 后 6 位 (有 下 画 线 者 ) 并 不 精确 ， 因 此 一 般 要 求 
多 运算 若干 位 并 含 去 期 望 位 数 后 面 的 若干 位 来 使 得 期 望 位 数 都 是 准确 的 ; @@ 该 计算 方法 
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并 不 是 最 快 的 ， 在 提高 运算 效率 上 还 可 有 进一步 改进 余地 。 该 程序 计算 小 数 点 后 1000 
位 的 值 ， 系 统 迭 代 了 3316 次 ， 速 度 为 9110 次 / 秒 。 


27.1.06 ” 梅 钦 类 公式 高 精度 方法 


在 1706 年 约 输 。 梅 钦 发 现 其 公式 之 前 ， 人 们 发 现 了 一 些 简 单 的 类 似 反 正切 函数 表 
达 式 ， 如 x/4=arctan(1/2)+arctan(1/3)， 而 且 arctan(x) 已 知 可 由 如 下 徊 级 数 展开 公式 计算 
得 到 

arctanx 2x x! /3+x / 54. (Dë x /(2k+1) 

其 中 及 0 ~ 99, kel 表示 需要 计算 的 项 数 。 因 此 计算 值 突破 的 方向 就 是 如 何 找到 简 

单 且 收敛 快 的 公式 ， 从 前 面 的 介绍 已 知 梅 钦 公式 是 最 早 发 现 的 快速 公式 : 
x / 4 — Aarctan(l / 5) — arctan(l / 239) 

该 公式 结合 前 面 已 知 arctan(x) TER 29 7623 98 2UROSE GT VE SER] A, TEREKE 
收敛 。 另 外 ， 也 可 从 编程 技巧 上 进行 改进 ， 如 一 个 数组 元 素 不 是 存储 小 数 点 后 的 一 位 数 ， 
而 是 若干 位 数 ， 如 果 数 组 的 一 个 元 素 存储 S 位 数 的 话 ， 梅 钦 公 式 中 每 计算 一 项 则 可 以 获 
得 约 Zlogio(5)=1.39794 位 的 十 进 制 精度 ， 其 时 间 复 杂 度 为 O(n”)。 

程序 27-7 为 笔者 基于 梅 钦 公式 结合 大 数 求解 技巧 实现 基础 运算 ,包括 加 法 、 减 法 和 
除法 。 其 中 用 来 表示 大 数 的 数组 ， 每 个 元 素 映 射 的 是 5 位 数字 ， 而 不 像 程序 27-5 的 计算 
过 程 中 是 1 位 数字 。 


程序 27-7 ”基于 数组 扩展 基本 运算 规则 ， 包 括 加 法 、 减 法 和 除法 
proc fcmp outlib-work.funcs.pi; 
/* 加 法 函数 ， 单个 数组 元 素 表示 5 位 数 */ 
function add(a[*], b[*], c[*], m); 
outargs c; 
carry-0; 
do i-m to 1 by -1; 
c[i]-a[i]* b[i]* carry; 
if c[i]«100000 then carry-0; 
else do; 
c[i]=c[i]-100000;/* 进 位 处 理 */ 
carry-l; 
end; 
end; 
return(1); 
endsub; 
/* 减 法 函数 : 单个 数组 元 素 表 示 5 位 数 */ 
function sub(a[*], b[*], c[*], m); 
outargs c; 
borrow-0; 
do i-m to 1 by -1; 
c[i]-a[i]- b[i]-borrow; 
if c[i]»-0 then borrow-0; 
else do; 
c[i]-c[i]*100000; /* 4E Sz 4E * / 
borrow-l; 
end; 
end; 
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return(1); 
endsub; 
/* 除 法 函数 : 单个 数组 元 素 表 示 5 位 数 */ 
function div(a[*], b, c[*], m); 
outargs c; 
remain-0; 
do i-1 to m; 
tmp-a[i] * remain; 
c[i] = floor(tmp / b); /*c[i] 是 整数 */ 
remain = mod(tmp, b ) * 100000; 
end; 
return(1); 
endsub; 
run; 


基于 数组 实现 了 基本 运算 法 则 后 ， 就 可 以 编写 高 精度 梅 钦 公式 求解 程序 〈 见 程序 27-8) 
其 中 工 表示 需要 计算 的 小 数 点 后 的 总 位 数 5000 位 。 


程序 27-8 Machin 公 式 求解 法 ,数组 一 个 元 素 表 示 5 位 数 
options cmplib=work.funcs; 
data mydata; 

st-datetime(); 


L-5000; /* 需要 计算 的 小 数 点 后 的 总 位 数 */ 


m-L/5*1; /* 如 果 每 段 5 位 数 的 话 ， 只 需 L/5«1 个 区 段 =5000/5+1=1001*/ 
array s[1001] temporary 7 
array w[1001] temporary ; 
array v[1001] temporary ; 
array q[1001] temporary ; 
do i-1 to 1001; 
s[i]l-0;w[i]-0;v[i]-0;q[i]-0; 


end; 

/* PI/4- 4 arctan(1/5) - arctan(1/239 

-» PI -16 arctan(1/5) - 4 arctan(1/239)*/ 
w[1] = 16 * 5; 

v[1] = 4 * 239; 


/* 需 要 计算 的 项 数 ， 每 计算 一 项 可 以 得 到 21og10[5]-1.39794 位 的 十 进 制 精度 */ 
n-floor( L / 1.39794 +1); 


25; mw mz /* 5 * 5-25 */ 
57121,v, m); /* 239 * 239- 57121 */ 
v, q, m); 

rc-div(q, 2*k*l, q, m); 


if mod(k,2)-0 then rc-add (s,q,s, m); /* 奇数 项 */ 
else rc-sub (s,q,s, m); /* 偶数 项 */ 
end; 


et-datetime () ; /* 计 时 结束 */ 

pt-et-st; 

if pt»0 then speed-L/pt; 

put "计算 耗 时 : " pt timelO." 计算 速度 :" speed 8.1" 次 / 秒 "; 


put s[1]; /* 输 出 结果 到 日 志 */ 
do k-2 to m; 
if s[k]^-. then put s[k] z5." " 60; 
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if mod(k-1, 10)-0 then put; 
end; 
run; 


系统 输出 如 下 所 示 ， 由 于 计算 了 更 长 的 x 值 ， 注 意 它 输出 的 994 位 到 第 1000 位 数 
F OFERA) 与 前 面 的 程序 27-6 是 不 同 的 ， 本 方法 输出 的 所 有 位 数 比 前 者 更 加 精确 ， 


且 计 算 速 度 更 快 。 
计算 耗 时 : 0:00:00 计算 速度 : 12285.0 次 / 秒 
计算 结果 : 3. 


14159 26535 89793 23846 26433 83279 50288 41971 69399 37510 
58209 74944 59230 78164 06286 20899 86280 34825 34211 70679 
82148 08651 32823 06647 09384 46095 50582 23172 53594 08128 
48111 74502 84102 70193 85211 05559 64462 29489 54930 38196 
44288 10975 66593 34461 28475 64823 37867 83165 27120 19091 
45648 56692 34603 48610 45432 66482 13393 60726 02491 41273 
72458 70066 06315 58817 48815 20920 96282 92540 91715 36436 
78925 90360 01133 05305 48820 46652 13841 46951 94151 16094 
33057 27036 57595 91953 09218 61173 81932 61179 31051 18548 
07446 23799 62749 56735 18857 52724 89122 79381 83011 94912 
98336 73362 44065 66430 86021 39494 63952 24737 19070 21798 
60943 70277 05392 17176 29317 67523 84674 81846 76694 05132 
00056 81271 45263 56082 77857 71342 75778 96091 73637 17872 
14684 40901 22495 34301 46549 58537 10507 92279 68925 89235 
42019 95611 21290 21960 86403 44181 59813 62977 47713 09960 
51870 72113 49999 99837 29780 49951 05973 17328 16096 31859 
50244 59455 34690 83026 42522 30825 33446 85035 26193 11881 
71010 00313 78387 52886 58753 32083 81420 61717 76691 47303 
59825 34904 28755 46873 11595 62863 88235 37875 93751 95778 
18577 80532 17122 68066 13001 92787 66111 95909 21642 01989 
38095 25720 10654 85863 27886 59361 53381 82796 82303 01952 
03530 18529 68995 77362 25994 13891 24972 17752 83479 13151 
55748 57242 45415 06959 50829 53311 68617 27855 88907 50983 
81754 63746 49393 19255 06040 09277 01671 13900 98488 24012 
85836 16035 63707 66010 47101 81942 95559 61989 46767 83744 
94482 55379 77472 68471 04047 53464 62080 46684 25906 94912 
93313 67702 89891 52104 75216 20569 66024 05803 81501 93511 
25338 24300 35587 64024 74964 73263 91419 92726 04269 92279 
67823 54781 63600 93417 21641 21992 45863 15030 28618 29745 
55706 74983 85054 94588 58692 69956 90927 21079 75093 02955 
32116 53449 87202 75596 02364 80665 49911 98818 34797 75356 
63698 07426 54252 78625 51818 41757 46728 90977 77279 38000 
81647 06001 61452 49192 17321 72147 72350 14144 19735 68548 
16136 11573 52552 13347 57418 49468 43852 33239 07394 14333 
45477 62416 86251 89835 69485 56209 92192 22184 27255 02542 
56887 67179 04946 01653 46680 49886 27232 79178 60857 84383 
82796 79766 81454 10095 38837 86360 95068 00642 25125 20511 
73929 84896 08412 84886 26945 60424 19652 85022 21066 11863 
06744 27862 20391 94945 04712 37137 86960 95636 43719 17287 
46776 46575 73962 41389 08658 32645 99581 33904 78027 59009 
94657 64078 95126 94683 98352 59570 98258 22620 52248 94077 
26719 47826 84826 01476 99090 26401 36394 43745 53050 68203 
49625 24517 49399 65143 14298 09190 65925 09372 21696 46151 
57098 58387 41059 78859 59772 97549 89301 61753 92846 81382 
68683 86894 27741 55991 85592 52459 53959 43104 99725 24680 
84598 72736 44695 84865 38367 36222 62609 91246 08051 24388 
43904 51244 13654 97627 80797 71569 14359 97700 12961 60894 
41694 86855 58484 06353 42207 22258 28488 64815 84560 28506 
01684 27394 52267 46767 88952 52138 52254 99546 66727 82398 
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64565 96116 35488 62305 77456 49803 55936 34568 17432 41125 
15076 06947 94510 96596 09402 52288 79710 89314 56691 36867 
22874 89405 60101 50330 86179 28680 92087 47609 17824 93858 
90097 14909 67598 52613 65549 78189 31297 84821 68299 89487 
22658 80485 75640 14270 47755 51323 79641 45152 37462 34364 
54285 84447 95265 86782 10511 41354 73573 95231 13427 16610 
21359 69536 23144 29524 84937 18711 01457 65403 59027 99344 
03742 00731 05785 39062 19838 74478 08478 48968 33214 45713 
86875 19435 06430 21845 31910 48481 00537 06146 80674 91927 
81911 97939 95206 14196 63428 75444 06437 45123 71819 21799 
98391 01591 95618 14675 14269 12397 48940 90718 64942 31961 
56794 52080 95146 55022 52316 03881 93014 20937 62137 85595 
66389 37787 08303 90697 92077 34672 21825 62599 66150 14215 
03068 03844 77345 49202 60541 46659 25201 49744 28507 32518 
66600 21324 34088 19071 04863 31734 64965 14539 05796 26856 
10055 08106 65879 69981 63574 73638 40525 71459 10289 70641 
40110 97120 62804 39039 75951 56771 57700 42033 78699 36007 
23055 87631 76359 42187 31251 47120 53292 81918 26186 12586 
73215 79198 41484 88291 64470 60957 52706 95722 09175 67116 
72291 09816 90915 28017 35067 12748 58322 28718 35209 35396 
57251 21083 57915 13698 82091 44421 00675 10334 67110 31412 
67111 36990 86585 16398 31501 97016 51511 68517 14376 57618 
35155 65088 49099 89859 98238 73455 28331 63550 76479 18535 
89322 61854 89632 13293 30898 57064 20467 52590 70915 48141 
65498 59461 63718 02709 81994 30992 44889 57571 28289 05923 
23326 09729 97120 84433 57326 54893 82391 19325 97463 66730 
58360 41428 13883 03203 82490 37589 85243 74417 02913 27656 
18093 77344 40307 07469 21120 19130 20330 38019 76211 01100 
44929 32151 60842 44485 96376 69838 95228 68478 31235 52658 
21314 49576 85726 24334 41893 03968 64262 43410 77322 69780 
28073 18915 44110 10446 82325 27162 01052 65227 21116 60396 
66557 30925 47110 55785 37634 66820 65310 98965 26918 62056 
47693 12570 58635 66201 85581 00729 36065 98764 86117 91045 
33488 50346 11365 76867 53249 44166 80396 26579 78771 85560 
84552 96541 26654 08530 61434 44318 58676 97514 56614 06800 
70023 78776 59134 40171 27494 70420 56223 05389 94561 31407 
11270 00407 85473 32699 39081 45466 46458 80797 27082 66830 
63432 85878 56983 05235 80893 30657 57406 79545 71637 75254 
20211 49557 61581 40025 01262 28594 13021 64715 50979 25923 
09907 96547 37612 55176 56751 35751 78296 66454 77917 45011 
29961 48903 04639 94713 29621 07340 43751 89573 59614 58901 
93897 13111 79042 97828 56475 03203 19869 15140 28708 08599 
04801 09412 14722 13179 47647 77262 24142 54854 54033 21571 
85306 14228 81375 85043 06332 17518 29798 66223 71721 59160 
77166 92547 48738 98665 49494 50114 65406 28433 66393 79003 
97692 65672 14638 53067 36096 57120 91807 63832 71664 16274 
88880 07869 25602 90228 47210 40317 21186 08204 19000 42296 
61711 96377 92133 75751 14959 50156 60496 31862 94726 54736 
42523 08177 03675 15906 73502 35072 83540 56704 03867 43513 
62222 47715 89150 49530 98444 89333 09634 08780 76932 59939 
78054 19341 44737 74418 42631 29860 80998 88687 41326 04714 


从 结果 可 以 看 到 Machin 公式 计算 5000 位 耗 时 1s 不 到 ， 和 迭代 速度 明显 比 前 面 程序 27-6 
的 计算 速度 更 快 。 因 此 ,很 多 现代 的 计算 机 求解 高 精度 值 都 是 采用 梅 钦 公式 或 其 衍生 
公式 进行 求解 。 当 然 ， 扩 展 运算 存储 为 数组 来 实现 高 精度 计算 ， 其 性 能 跟 底层 数组 长 度 
有 关系 《进位 借 位 问题 ， 比 如 计算 50000 位 小 数 跟 计算 5000 位 小 数 时 可 明显 感觉 到 
耗 时 变 长 。 
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27.1.7 ” 迁 代 方法 一 一 贝 拉 公 式 


下 面 的 代码 为 作者 用 SAS 语言 以 FCMP 函数 实现 的 BBP 算法 变 体 一 一 贝 拉 公式 ( 见 
程序 27-9) 。 其 中 扩展 了 3 个 求 余 函数 和 2 个 质数 的 有 关 函 数 ， 其 中 pow_mod 函数 使 
用 了 第 10 章 讲 到 的 位 运算 操作 函数 bAnd 和 bRShift 函数 。 主 函数 BBP_Bellard 返回 圆 
周 率 小 数 点 后 指定 位 置 m 后 的 9 位 小 数 ， 其 中 9 是 在 单 次 调用 中 保持 精度 可 以 获得 的 最 
大 位 数 。 

程序 27-9 BBP 算法 变 体 一 一 贝 拉 公式 

proc fcmp outlib-work.funcs.bbp; 

/* 返回 (a*b) 乘积 对 m 求 余 */ 
function mul mod(a, b, m); 


return (mod( a * b, m)); 
endsub; 


/* 返回 x 对 y 求 余 的 道 */ 


function inv mod( x, y); 


u-x 
v=y; 
c-1; 
a-0; 


do until (u-0); 
q -floor( v / u); 


t-20; 
c—u-iug* e; 
a-t; 
t-u; 
ucc qp one 
i dimi eg 

end; 


a -floor(mod( a, y)):; 
if (a «0 then a = y + a; 
return ( a); 

endsub; 


/* 返回 (a^b) 对 m 求 余 */ 
function pow mod( a, b, m); 
bb-b; 


aa ; 
do while (1); 
if bAnd(bb ,1)-1 then r - mul mod(r, aa, m); 
bb - bRShift(bb ,1); 
if (bb = 0) then return(r); 
aa = mul mod(aa, aa, m); 
end; 
return (r); 
endsub; 


/* 判断 n 是 否 为 质数 */ 
function is prime( n); 
if ( mod(n, 2) = 0) then return(0); 


r = floor ( sqrt(n) ); 
do i- 3 to r by 2; 


if ( mod(n, i) = 0) then return(0); 


end; 
return (1); 
endsub; 


/* 返回 自然 数 n 下 一 个 质数 */ 
function next prime( n); 
nn-n; 
do until( is prime(nn) ); 
nn-nntl; 
end; 
return ( nn); 
endsub; 
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/* 基于 BBP 变 体 贝 拉 公式 计算 PI 的 第 m 位 十 进 制 小 数 ， 为 确保 精度 仅 取 9 位 数字 


* 计算 复杂 度 为 0 (n^2) 比 标准 BBP 算法 快 43% */ 


function bbp bellard (m); 


N = floor( ((m + 20) * 1og(10) / 1og(2)) ); 


sum = 0.0; 


a-3; 
do while (a«-(2 * N)); 


vmax = floor( (log(2 * N) / log(a)) 


av = 1; 
do i = 0 to vmax-1; 
ar = av * aj 


end; 

5 = 0; 
num = 1; 
den = 1; 
v=0; 
kq = 1; 
kq2 = 1; 


do k = 1 to N; 
t= kè 
if (kq >= a) then do; 


do until ( mod(t , a) ^= 
E sik Jap 
v-v-1l; 
end; 
kq = 0; 
end; 
kq-kq*l; 


num = mul mod(num, t, av); 


t= 2 Hs 
if (kq2 >= a) then do; 
if (kq2 = a) then do; 


0) 


do until( mod(t, a) ^-0); 


t-'t fas 
v-vtl; 


end; 

kq2-kq2-a; 
end; 
den = mul mod(den, t, av); 
kq2 -kq2 + 2; 


if (v »0) then do; 
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t = inv mod(den, av); 
t - mul mod(t, num, av); 
t - mul mod(t, k, av); 
do i = v to vmax-1; 
t = mul mod(t, a, av); 
end; 
s-s + t; 
if (s >= av) then s -s - av; 
end; 
end; 


t = pow mod(10, m - 1, av); 
s = mul mod(s, t, av); 
sum = mod(sum + s f av. 1.0). 


a = next prime(a); 


end; 
/* 四 字 节 最 大 整数 为 10 位 的 2147483647， 为 确保 精度 仅 取 9 位 数 */ 
return( floor( sum * 1E9) ); 
endsub; 
run; 
quit; 


可 以 在 DATA 步 中 对 该 FCMP 函数 进行 调用 ， 如 计算 第 101 位 开始 的 9 位 小 数 ， 可 
调 如 下 程序 27-10。 读 者 需要 注意 其 中 的 输出 格式 被 指定 为 z9. 表示 输出 9 位 ， 如 果 位 数 
不 足 的 话 前 面 自动 补 0 显示 。 


程序 27-10 ”获得 指定 位 数 101 后 的 9 位 小 数 
options cmplib-work.funcs; 
data null ; 
x-bbp bellard(101); 
put x= z9.; /* tiii. x-821480865 , il9 58101 位 不 需 先 计 算 0-100 位 */ 


run; 
如 果 为 了 得 到 圆周 率 小 数 点 后 全 部 100 位 小 数 点 ， 可 通过 如 下 程序 27-11 获得 ， 注 
意 其 中 输出 的 位 数 为 9 的 整 倍数 。 


程序 27-11 输出 全 部 100 位 小 数 
options cmplib-work.funcs; 
data null ; 
n-100; 
do i-1 to n by 9;/* 只 需要 每 隔 9 位 计算 即 可 */ 
d-bbp bellard(i); 
put d z9. Q8; 
end; 
run; 


为 了 让 输出 结果 更 加 整齐 便于 检查 ， 可 以 每 5 个 数 输出 一 个 空格 ， 见 程序 27-12 所 示 。 
程序 27-12 ”格式 化 输出 ， 每 5 个 数 输出 一 个 空格 


options cmplib-work.funcs; 
data null ; 
n-100; 


do i-1 to n by 5; 
x-substr(put(bbp bellard(i), z9.),1,5); 
put x 80; 
end; 
run; 
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本 过 代 方法 的 最 大 好 处 是 可 以 求 小 数 点 后 任意 指定 位 置 的 数值 ， 而 不 需要 预先 计算 
其 前 面 的 位 数 ， 这 一 性 质 使 并 行 计算 圆周 率 值 成 为 可 能 ， 比 如 我 们 可 以 用 DS2 多 线程 分 
别 计 算 ， 在 所 有 计算 结束 后 ， 在 主线 程 中 按照 位 置 从 前 到 后 对 结果 进行 顺序 组 装 即 可 。 


27.2 zt 值 分 析 


既然 x 值 是 唯一 的 数值 序列 ， 很 好 奇 的 一 个 问题 就 是 它 小 数 点 后 的 数字 服从 什么 规 
律 分 布 昵 ?到 目前 为 止 人 们 根据 经 验 认 为 它 很 可 能 是 随机 的 ， 但 由 于 常数 值 后 面 的 小 
数位 是 无 穷 无 尽 的 ， 因 此 它 并 未 得 到 有 力 的 理论 证 明 。 为 了 研究 分 析 这 个 问题 ， 只 能 用 
计算 机 尽 可 能 地 计算 出 高 精度 数值 ， 然 后 用 数据 分 析 的 方法 作 经 验 性 的 证 明 。 为 了 得 到 
n 的 小 数位 序列 供 分析 之 用 ， 以 程序 27-8 为 例 进行 改造 。 首 先 将 小 数 点 后 的 所 有 单个 数 
字 输 出 到 SAS 数据 集 作为 观测 进行 考察 。 为 此 ， 将 修改 程序 27-8 中 的 如 下 代码 片段 ( 见 
程序 27-13) . 


程序 27-13 输出 到 日 志 窗 口 

put s[1]; /* 输 出 结果 到 日 志 */ 

do k=2 to m; 
if s[k]^-. then put s[k] z5." " Qe; 
if mod(k-1, 10)-0 then put; 

end; 


上 面 的 结果 输出 到 日 志 窗 口 ， 而 我 们 需要 将 计算 出 来 的 每 1 位 数字 输出 到 数据 集 
mydata 中 ， 为 此 将 代码 更 改 为 如 程序 27-14 所 示 。 


程序 27-14 输出 到 sAs 数 据 集 
do k=2 to m; 
length x 8; 
str-put(s[k], z5.); 
do j-1 to 5; 
x-substr( str, j, 1); 
keep x; 
output; 
end; 
end; 


此 时 打印 数据 集 mydata 即 可 得 到 如 图 27-5 所 示 的 样本 数据 。 


Obs x 4990 7 
13 4991 4 
2|4 4992 1 
3/1 4993 3 
45 4994 2 
5 9 4995 6 
6 2 4996 0 
7|6 4997 4 
85 4998 7 
93 4999 1 
10 5 5000 4 


图 27-5 将 每 1 位 数字 作为 观测 输出 
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27.2.1 数字 分 布 规律 


首先 使 用 SGPLOT 过 程 步 来 了 解 其 数字 分 布 规律 ， 运 行 如 程序 27-15 可 得 到 其 频数 
分 布 直方 图 、 核 密度 曲线 以 及 参考 的 正 态 分 布 曲线 。 


程序 27-15 ”考察 单个 位 数 的 分 布 规律 
proc sgplot data-mydata; 
title 'PI Digital Distribution'; 
histogram x ; 
density x / type-normal legendlabel-'Normal"' 
lineattrs- (pattern-solid color-red); 
density x / type-kernel legendlabel-'Kernel' 
lineattrs- (pattern-solid); 
keylegend / location-inside position-topright across-1; 
xaxis display-(nolabel) ; 
run; 


PI Digital Distribution 
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27-6 ”数字 0-9 的 直方 图 和 核 密度 曲线 


从 图 27-6 的 概率 密度 分 布 曲线 可 知 ， 它 几 近 于 等 概 分 布 〈 均 匀 分 布 ) 。 随 着 求 得 
的 小 数位 数 越 多 ， 其 0-9 共 10 个 数字 的 频数 基本 一 致 。 为 更 进一步 分 析 其 规律 ， 可 以 
分 析 数 字 出 现 次 数 和 小 数 点 位 数 的 规律 ， 即 各 个 数字 出 现 的 总 和 及 其 平均 值 将 会 如 何 演 
AE? 生成 mydata s 数据 集 ， 其 中 x0-x9 分 别 表示 数字 0-9 出 现 的 总 次 数 ，m0~m9 表示 
各 数字 出 现 次 数 的 平均 值 ， 即 各 数字 出 现 的 期 望 〈 见 程序 27-16) o 


程序 27-16 计算 数字 出 现 次 数 以 及 平均 出 现 次 数 与 试验 次 数 的 关系 
data mydata 5; 
set mydata; 
array a[0:9] x0-x9; 
array m[0:9] m0-m9; 
do i-0 to 9; 
if x-i then a[i]*1; 


第 27 章 t 高 精度 求解 与 探索 分 析 EE 


m[i]- a[i]/ N ; 
end; 
t= N; 
run; 
一 旦 上 面 的 程序 生成 了 mydata s 数据 集 后 ， 就 可 以 绘制 图 形 来 揭示 其 规律 。 首 先 用 
程序 27-17 实现 可 重用 的 SAS 宏 ， 该 宏 将 被 用 来 绘制 多 条 曲线 。 
程序 27-17 ”绘制 图 形 以 揭示 规律 
%macro DrawPlot (prefix-x); 
proc sgplot data-mydata s; 
title 'Mean/N Plot'; 
$do i-0 $to 9; 
series x-t y-&prefix&i; 
*end; 
run; 
*mend; 


SDrawPlot (prefix-x) ; 
SDrawPlot (prefix-m); 


系统 输出 如 下 ， 如 图 27-7 所 示 可 以 很 清晰 地 看 到 ， 随 着 小 数 点 位 数 的 增长 ， 各 数 
字 出 现 次 数 都 近乎 直线 均匀 增长 ， 虽 然 其 斜率 稍 有 不 同 ， 但 大 致 出 现 次 数 为 总 位 数 的 
1/10。 进 一 步 地 从 图 27-8 所 示 也 可 以 看 出 ， 所 有 数字 的 出 现 次 数 的 期 望都 将 收敛 于 0.1 
处 ,这 说 明 从 统计 学 上 可 以 经 验 性 地 证 明 的 小 数位 的 各 个 数字 (0~9) 服从 均匀 分 布 ， 
即 服从 p=1/10=0.1 的 等 概率 离散 均匀 分 布 。 

实际 上 ， 如 果 把 + 值 小 数 点 后 每 m 位 数 作为 考察 对 象 ， 如 m=2 时 ， 考 察 的 对 象 就 
变 成 了 1415 92 65 35 … 此 时 不 必 更 改 求 值 程序 ， 只 需要 基于 前 面 生 成 的 数据 集 重新 分 
段 构造 出 新 数据 集 mydata2 即 可 〈 见 程序 27-18) ， 然 后 将 它 作为 数据 样本 进行 分 析 ， 
也 可 以 得 到 类 似 的 等 概率 分 布 规律 〈 见 图 27-9) 。 


Mean/N Plot 
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27-7 各 条 线 具有 大 致 相同 的 斜率 p=1/10 
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程序 27-18 将 m=2 位 小 数位 作为 待考 察 的 观测 


data mydata2 (rename= (sum-x)); 
set mydata; 
retain sum; 


if mod( N ,2)-1 then sum=x;/* 每 2 位 数 重新 构造 x 值 */ 


else sum=sum*10+x; 
if mod( N ,2)-0 then output; 
keep sum; 

run; 
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27.2.2 可视化 探索 


更 多 的 分 析 研 究 证 明 的 无 限 不 循环 小 数 序列 不 管 是 以 每 1 个 数字 ， 还 是 以 
每 2 个 数字 或 m 个 数字 作为 考察 对 象 ， 该 数字 序列 都 服从 等 概率 均匀 分 布 (Uniform 
Distribution) 特征 。 因 此 由 于 圆周 率 x 的 无 限 不 循环 特征 ， 可 以 断言 世界 上 任何 长 度 的 
一 串 数字 《比如 任何 人 的 出 生日 期 ) 都 可 能 在 的 小 数 点 中 找到 ， 因 此 圆周 率 可 能 区 
含 了 关于 这 个 世界 的 一 切 数字 信息 ! x 似乎 在 有 序 性 和 随机 性 之 间 找 到 了 最 为 完美 的 平 
衡 ， 但 是 关于 它 的 随机 性 ， 尽 管 能 够 生成 出 有 限 长 度 的 x 值 进行 分 析 ， 目 前 尚 无 任何 人 
能 够 从 理论 上 证 明 其 随机 性 。 

1888 年 ， 英 国 数学 家 约翰 。 维 恩 (John Venn〉 曾 手工 绘制 值 的 前 707 个 小 数位 
的 维 恩 图 (也 称 文 氏 图 ) ， 他 将 数字 0-7 分 别 指向 顺 时 针 方 向 排列 的 8 个 方向 ， 同 时 忽 
略 数字 8 和 9， 得 到 了 如 图 27-10 的 图 形 模 式 ， 这 些 图 像 似乎 暗示 了 7 值 随机 性 背后 隐 
藏 的 固定 模式 。 


27-10 n (& Bi 707 和 4000 位 数字 生成 的 维 恩 图 


笔者 用 SAS 程序 实现 该 图 像 的 代码 如 程序 27-19 所 示 。 


程序 27-19 7 的 值 彩色 维 恩 图 的 绘制 
data mydata walk; 
set mydata; 


retain count 0; 
if count<=707; /* 控 制 位 数 在 0-7 之 间 的 项 数 */ 


if count=0 then do; 


if x=8 or x-9 then return; /* 忽 略 8 和 9*/ 


if x-0 then do; yy- 1; xx- 0; end; /* 根 据 数值 控制 偏 移 量 */ 
if x-1 then do; yy- 1; xx= 1; end; 
if x-2 then do; yy- 0; xx- 1; end; 
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if x-3 then do; yy--1; xx- 1; end; 
if x-4 then do; yy--1; ; end; 
if x-5 then do; yy--1; ; end; 
if x-6 then do; yy- 0; ; end; 
if x-7 then do; yy- 1; end; 


retain cx cy 0;/* 控 制 当前 位 置 */ 
CX=CX+XX? 
cy=cy+yy; 
count=count+1; 
output; 

run; 

Proc sgplot data=mydata walk; 
series x-cx y-cy; 

run; 


得 益 于 SAS 强大 的 数据 操纵 和 绘图 能 力 ， 可 以 改进 忽略 掉 数 字 8 和 9 的 维 恩 图 ， 而 
是 将 数字 0-9 全 部 映射 到 顺 时 针 方向 排 布 的 10 个 方向 ， 每 个 方向 之 间 夹 角 为 36” ( 见 
程序 27-20) 。 此 时 天 值 的 维 恩 图 可 以 绘制 如 下 《〈 见 图 27-11) 。 
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图 27-11 5000 位 小 数 的 7 值 维 恩 图 


程序 27-20 ”x 值 彩色 维 恩 图 的 绘制 
data mydata walk; 
set mydata; 


if _N =1 then do; yy=0; xx=0; output; end; 
theta= (x/10) * 2* 3.1415926536; /* 择 向 */ 
yy= cos (theta) ; /* 计 算 偏 移 量 */ 


xx= sin(theta); 


retain cx cy 0;/* 计 算 当 前 位 置 */ 


第 27 章 m 高 精度 求解 与 探索 分 析 


CR=CX+XX} 
cy=cy+tyy; 


px-lag (cx) ;/* 记 录 上 一 位 置 */ 
py=lag (cy): 


retain count 0;/* 步 进 计数 */ 


count=count+1; 


keep count cx cy px py; 
output; 
run; 
proc sgplot data-mydata walk (where- (count«5001)); 
vector x-cx y-cy /xorigin-px yorigin-py noarrowheads 
COLORRESPONSE-count colormodel- (green gold red); 
run; 


实际 上 , 随 着 x 值 长 度 的 增加 ,其 数字 背后 隐藏 的 模式 确实 会 呈现 出 某 种 确定 性 规律 。 
27-12 显示 了 10000 和 1000000 位 zt 值 的 维 恩 图 ， 其 特定 形状 所 揭示 的 规律 跟 分 形 图 
表现 出 某 种 相似 性 ， 但 这 些 经 验 性 特征 至 今 尚未 真正 揭 开 7 值 包含 一 切 数字 神奇 特性 背 
后 的 理论 真 容 。 


Æ 27-12 10000 和 1000000 位 值 维 恩 图 


回顾 漫长 的 历史 可 以 看 到 ， 人 类 在 探寻 的 道路 上 永 不 止步 ! 曾经 有 这 么 个 说 法 : 
一 个 国家 能 计算 出 的 圆周 率 精确 程度 ， 可 以 衡量 这 个 国家 当时 数学 发 展 水 平 的 指标 。 当 
然 ， 现 在 借助 计算 机 强大 的 计算 能 力 ， 人 类 计算 x 值 的 限制 更 多 地 受 限 于 计算 机 的 计算 
能 力 。 实 际 上 ， 在 日 常 工程 计算 中 精确 到 小 数 点 后 40 位 的 x 值 在 天 文学 家 计算 银河 系 
大 小 的 圆周 时 ， 其 误差 已 经 小 于 一 个 质子 。 当 下 人 类 探索 高 精度 r 计算 有 个 重要 用 途 是 
用 来 衡量 计算 机 软 硬 件 系统 的 性 能 评估 ， 以 及 探索 该 无 限 不 循环 数字 中 是 否 列 含 某 些 固 
定 模式 或 规律 。 找 到 后面 无 限 不 循环 的 数字 只 是 事情 的 一 个 方面 ， 而 探索 该 数字 内 在 
的 分 析 属 性 以 及 在 某 个 领域 的 特殊 作用 则 更 具 意义 。 因 此 关于 本 身 奥秘 的 探寻 还 远 未 
结束 ， 因 为 依然 还 是 那个 永恒 的 、 无 尽 变 化 且 没 有 尽头 的 神秘 常量 ， 它 包含 一 切 可 能 
的 数字 ， 背 后 依然 还 有 太 多 太 多 的 秘密 等 待 我 们 去 探索 和 分 析 ! 希望 本 章 能 够 帮助 读者 
揭 开 随机 性 世界 的 面纱 一 角 ， 开 启 自己 独立 的 数据 分 析 和 探索 之 路 ! 


附 录 


附录 1 


二 项 分 布 累积 概率 表 ， 查 表 参 数 为 成 功 概率 p， 独 立 伯 努 利 试验 次 数 n 以 及 成 功 次 
数 m。 


F, (m) = PX m) = ni yk Tu 
x-0 


n 
x 
程序 28-1 生成 二 项 分 布 的 累积 概率 表 
data ProbBNML; 
do n-1 to 20; 
do m-0 to (n-1); 
array c [19]; 
i-1; 
do p-0.05 to 0.95 by 0.05; 
c[i]-ProbBNML(p,n,m); /* 等 价 于 cdf(“BINOMIRL",mrpvn),PB 为 成 功 概 率 */ 
i-it1; 
end; 
keep n m c: ; 
format c: 9.4; 
output; 
end; 
end; 
run; 


/* 创建 列 标签 p=0.05 并 打印 输出 */ 
$macro SetLabel(); 
data ProbBNML; 
set ProbBNML; 
*$let i-1; 
%do i-1 $to 19; 
$1et p- $sysfunc(putn($sysevalf( &i * 0.05), 4.2)); 
label c&i-"&p"; 
send; 
run; 
5mend; 
$SetLabel(); 
proc print label; 
run; 


运行 程序 输出 如 下 二 项 分 布 累积 概率 表 。 第 1 行为 成 功 概率 p 的 取 值 ， 第 1 列 和 第 
2 列 为 独立 伯 努 利 试验 次 数 n 和 成 功 次 数 m 的 取 值 (二 项 事件 发 生 谓 之 成 功 ) ， 则 对 应 
单元 格 的 值 就 是 该 参数 pp，n 和 m 对 应 的 累积 概率 (由 于 mn 时 累积 概率 恒 为 1.0， 表 
中 不 再 列 出 ) 。 

比如 某 药物 的 治愈 率 为 0.5， 有 2 个 人 参加 治疗 ， 则 无 人 治愈 的 概率 为 0.25, 无 人 治 
AREA 1 个 人 治愈 的 概率 为 0.75，2 个 人 都 治愈 的 概率 为 1- 0.75=0.25。 
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附录 2 


泊 松 分 布 累积 概率 表 ， 查 表 参数 为 泊 松 事件 发 生 率 〈 期 望 值 ) MERERI 
到 DO= Pen - H -a 
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e 
x! 


部 分 文献 的 泊 松 分布 表 是 基于 1- 玉 (~ È| TZ ee, 查 表 时 注意 公式 说 明 。 


程序 28-2 ”生成 泊 松 分 布 的 累积 概率 表 
data ProbPos; 
do t- 0 to 9; 
array c[20]; 
i-1; 
do lambda-0.1 to 2 by 0.1; 
c[i]=cdf ('POISSON', t, lambda); 
i=i+1; 
end; 
format c: 9.4; 
keep t c: ; 
output; 
end; 


run; 
/* 创建 列 标签 1 - 2 并 打印 */ 
$macro SetLabel(); 
data ProbPos; 
set ProbPos; 
%let i-1; 
$do i-1 $to 20; 
$1let p= $sysfunc(putn($sysevalf( &i * 0.1), 4.1)); 
label c&i-"&p"; 
Send; 
run; 
5mend; 
$SetLabel(); 
proc print label;run; 


运行 程序 输出 如 下 泊 松 分 布 累积 概率 表 。 第 1 行为 均值 参数 ， 即 期 望 值 RRA 
位 时 间 内 的 发 生 率 ; 第 1 列 为 整数 随机 变量 :， 表 示 多 少 个 时 间 单 位 。 根 据 它 们 查 表 所 
得 单元 格 的 值 就 是 该 发 生 率 4 下 ， 泊 松 事件 成 功 发 生 次 数 小 于 等 于 + 次 的 概率 。 

比如 单位 时 间 内 出 生 的 婴儿 数 4 为 3， 则 接 下 来 的 1 个 时 间 单 位 (1) 内 出 生 小 于 等 
于 1 个 婴儿 (0 个 婴儿 或 1 个 婴儿 ) 的 概率 就 是 查 表 所 得 的 概率 值 0.1991。 据 此 可 推断 
接 下 来 的 1 个 时 间 单 位 内 至 少 出 生 2 个 婴儿 的 概率 就 等 于 1—0.1991-0.8009 即 80.09%。 
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附录 3 


标准 正 态 分 布 累积 概率 表 ， 查 表 参 数 为 指定 随机 变量 z 


xe? dz 


dz) - PZ«z)- |7 


J2z 


程序 28-3 ”生成 正 态 分 布 累 积 概率 表 
data ProbNorm; 
do z=-3.50 to 3.50 by 0.1; 
array c[10]; 
i=1; 
do j=0.00 to 0.09 by 0.01; 
c[i]=ProbNorm(z+j); /* 等 价 于 cdf( "NORMAL", z4j) */ 
i=i+1; 
end; 
format c: 9.4; 
keep z c:; 
output; 
end; 


run; 
/* 创建 列 标签 0.00 - 0.09 并 打印 */ 
$macro SetLabel(); 
data ProbNorm; 
set ProbNorm; 
$1let i-1; 
$do i-1 $to 10; 
Slet p= $sysfunc(putn($sysevalf( (&i-1) * 0.01), 4.2)); 
label c&i-"&p"; 
Send; 
run; 
5mend; 
$SetLabel(); 
proc print label;run; 


运行 程序 输出 如 下 标准 正 态 分 布 累积 概率 表 。 第 1 列 为 随机 变量 z 的 取 值 -3.5 一 3.5， 
第 1 行 是 小 数 点 后 第 2 位 的 取 值 (0.01 ~ 0.09) ， 因 此 每 一 个 单元 格 是 水 平方 向 上 的 = 
值 加 上 对 应 列 的 小 数 j 所 指定 的 分 位 数 的 累积 概率 值 。 也 就 是 说 该 表 从 左 到 右 ， 从 上 到 
下 服从 标准 正 态 分 布 的 随机 变量 每 增长 0.01 所 对 应 的 累积 概率 值 。 对 于 所 有 正 态 分 布 需 
要 化 为 标准 正 态 分 布 才 可 以 查 表 。 
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比如 : 己 知 随机 变量 服从 均值 为 5， 方 差 为 9 的 正 态 分 布 ， 记 为 六-N(5, 9)， 求 该 随 
机 变量 大 于 等 于 11 且 小 于 等 于 -1 的 概率 ， 即 PK 11) 且 PAS -1) 的 概率 ? 

解答 : oM FEX XNU o7) RI dii z- (x —4)/o — N(Q.1) 化 为 标准 正 态 分 布 。 则 
z=(1-513=2，z=(-1-5313=-2， 则 它 等 价 于 求 标准 正太 分布 中 PIZ) 的 概率 。 

由 于 P(Zz|=>2)=2xP(CZ>=>2)， 而 P(Z>2)=1-P(Z<2)， 而 P(Z«2) 可 直接 查 标 
准 正 态 分 布 累积 概率 表 第 56 行 (2.0 行 ) 的 第 2 列 〈0.00 列 )》， 其 取 值 是 0.9772， 即 
P(Z<2.00)=0.9772, 则 PdZ|>=>2)=2x P(ZZ2) = 2x (1 - 0.9772) = 0.0456 。 
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表 28-3 标准 正 


态 分 布 累积 概率 表 


-2.5 


0.0062 


0.0064 


0. 


.0068 | 0.0069 | 0.0071 | 0.0073 


0.0075 


0.0078 


0.0080 


-2.4 


-1.1 


0.0082 


0.0084 


0. 


0. 


0. 
0. 


.0089 | 0.0091 


0.0116 | 0.0119 | 


.0150 | 0. 


.0853 | 0.0869 


.1020 


0094 


0.0096 
0.0125 
0.0162 


0735 | 0.0749 


0.0885 


0.0901 
0.1075 
0.1271 


0.0099 
0.0129 
0.0166 
0.0212 
0.0268 
0.0336 


0.0516 
0.0630 
0.0764 
0.0918 
0.1093 
0.1292 


0.0102 
0.0132 
0.0170 
0.0217 
0.0274 
0.0344 


0.0526 
0.0643 
0.0778 
0.0934 
0.1112 
0.1314 


0.0104 
0.0136 
0.0174 
0.0222 
0.0281 
0.0351 


0.0537 
0.0655 
0.0793 
0.0951 
0.1131 
0.1335 


-1.0 


-0.9 


-0.8 


GEK) 


0.9830 
0.9868 


798 


0.9906 


0.9750 
0.9803 


0.9909 
0.9931 
0.9948 


0.9971 
0.9979 
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附录 4 


1 分 布 临 界 值 表 ， 查 表 参 数 为 显著 性 水 平 a 和 自由 度 参 数 df 
P[:(af)7 1, (8f) ]|-a 


ta dP) 


程序 28-4 ”生成 1 分 布 表 : 自由 度 df， 显 著 性 水 平 a 
data QuanT; 
array a[6] (0.250, 0.100, 0.050, 0.025, 0.010, 0.005); 
do df-1 to 120; 
array c[6]; 
do i- 1 to dim(a); 
p-l-a[i]: /* a[i] 为 置信 区 间 的 显著 性 水 平 Alpha*/ 
c[i]-tinv(p, df); /* 临界 值 ta, MS p 个 分 位 数 */ 
end; 
format c: 9.4; 
keep df c:; 
output; 
end; 


run; 
/* 创建 列 标签 0.250 - 0.005 并 打印 */ 
Smacro SetLabel():; 
data QuanT; 
set QuanT; 
label c1-"0.250" c2-"0.100" c3-"0.050" 
c4-"0.025" c5-"0.010" c6-"0.005"; 
run; 
5mend; 
$SetLabel(); 
proc print label;run; 


3e 4T F2 F £488 ÉL t (df) E ,第 1 列 为 自由 度 dp 第 1 行为 显著 性 水 平 a。 
单元 格 数值 为 置信 水 平 1-a 所 对 应 的 分 位 数 。 当 显著 性 水 平 为 0.250, 0.100, 0.050, 0.025, 
0.010, 0.005， 对 应 置信 水 平 为 75%, 9096, 9596, 97.5%, 99%, 99.596. 

服从 正 态 分 布 但 总 体 方差 未 知 时 ，t 检验 可 用 于 单个 总 体 均 值 的 检验 。t 检 验 也 可 用 
于 独立 小 样本 的 两 个 总 体 之 均值 进行 检验 。 在 对 两 个 样本 均值 是 否 存 在 显著 性 差异 时 需 
要 使 用 + 检验 ， 其 原理 就 是 根据 样本 计算 出 + 值 与 上 分 布 临界 值 表 中 查 到 的 临界 值 进 行 比 
较 。 当 自由 度 df 增 大 时 ，t 分 布 逐渐 趋 近 于 正 态 分 布 。 


表 28-4 分 布 临界 值 表 


附 


z EN 


0.010 0.005 

31.8205 63.6567 

6.9646 9.9248 

4.5407 5.8409 

3.7469 4.6041 

3.3649 4.0321 

z 3.1427 3.7074 

2.1604 2.6503 3.0123 

2.1098 2.5669 2.8982 

2.0796 2.5176 28314 
25 2.0595 2.4851 2.7874 
2.0484 2.4671 2.7633 

| 16991 | 20 2.4620 2.7564 

1.3095 2.0395 2.4528 2.7440 

32 0.6822 1.3086 1.6939 2.0369 2.4487 2.7385 
33 0.6820 1.3077 1.6924 2.0345 2.4448 2.7333 
34 0.6818 1.3070 1.6909 2.0322 2.4411 2.7284 
35 0.6816 1.3062 1.6896 2.0301 2.4377 2.7238 
36 0.6814 1.3055 1.6883 2.0281 2.4345 2.7195 
37 0.6812 1.3049 1.6871 2.0262 2.4314 2.7154 
38 0.6810 1.3042 1.6860 2.0244 2.4286 2.7116 
39 0.6808 1.3036 1.6849 2.0227 2.4258 2.7079 
40 0.6807 1.3031 1.6839 2.0211 2.4233 2.7045 
41 0.6805 1.3025 1.6829 2.0195 2.4208 2.7012 
42 0.6804 1.3020 1.6820 2.0181 2.4185 2.6981 


3 S 和 AS 技术 内 幕 : 从 程序 员 到 数据 科学 家 


GEK) 


1.6766 


1.6759 


1.6753 


1.6747 


1.6741 


1.6736 


60 


0.6789 


0.6787 


0.6786 


1.6730 
1.2969 1.6725 
1.6720 
1.6716 
1.2961 1.6711 
1.2958 1.6706 


61 0.6785 1.2956 1.6702 
62 0.6785 1.2954 1.6698 


2.0096 2.4049 2.6800 


2.0086 2.4033 2.6778 


2.0076 
2.0066 


2.0057 2.3988 2.6718 


2.4017 
2.4002 


2.6757 
2.6737 


2.0049 2.3974 2.6700 


2.0040 
2.0032 


2.0025 2.3936 2.6649 


2.3961 
2.3948 


2.6682 
2.6665 


2.0017 2.3924 2.6633 


2.0010 


2.0003 2.3901 2.6603 


2.3912 


2.6618 


1.9996 2.3890 2.6589 


1.9990 2.3880 2.6575 


1.9983 


2.3870 


2.6561 


63 0.6784 1.2951 1.6694 
64 0.6783 1.2949 1.6690 


65 0.6783 1.2947 1.6686 
66 0.6782 1.2945 1.6683 
67 


1.6679 


68 


1.6676 


69 


1.6672 


70 


1.6669 


71 


1.6666 


72 


1.6663 


73 


1.9977 2.3860 2.6549 
1.9971 2.3851 2.6536 


1.9966 2.3842 2.6524 


1.9960 
1.9955 


1.9949 2.3816 2.6490 


2.3833 
2.3824 


2.6512 
2.6501 


1.9944 2.3808 2.6479 


1.9939 
1.9935 


2.3800 
2.3793 


2.6469 
2.6459 


74 


75 


76 


77 


78 
79 
80 
83 0.6775 1.2918 1.6634 1.9890 2.3721 2.6364 
84 0.6774 1.2917 1.6632 1.9886 2.3716 2.6356 


附 


GEK) 


95 
96 
97 0.6770 1.2903 


98 0.6770 1.2902 


1.6618 


1.6614 
1.6609 


1.6607 
1.6606 


1.9864 2.3680 2.6309 
1.9861 2.3676 2.6303 


1.9858 2.3671 2.6297 
1.9855 2.3667 2.6291 


1.9847 2.3654 2.6275 
1.9845 2.3650 2.6269 


99 0.6770 1.2902 1.9842 2.3646 2.6264 


100 0.6770 1.2901 


101 0.6769 1.2900 


102 0.6769 1.2899 


1.6599 


1.9840 2.3642 2.6259 


1.9837 2.3638 2.6254 


1.9835 2.3635 2.6249 


103 0.6769 1.2898 1.6598 1.9833 2.3631 2.6244 
104 0.6769 1.2897 1.6596 1.9830 2.3627 2.6239 


105 0.6768 1.2897 


1.9828 2.3624 2.6235 


106 0.6768 1.2896 1.6594 1.9826 2.3620 2.6230 
107 0.6768 1.2895 1.6592 1.9824 2.3617 2.6226 
0.6768 1.2894 1.6591 1.9822 2.3614 2.6221 


108 
109 
110 
111 
112 
113 
114 
115 


1.6595 


1.9820 2.3610 2.6217 
1.9818 2.3607 2.6213 


1.9816 2.3604 2.6208 
1.9814 2.3601 2.6204 


1.9812 2.3598 2.6200 
1.9810 2.3595 2.6196 


116 


117 


118 


119 


E587 
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附录 5 


好 分 布 临界 值 表 ， 查 表 参数 为 显著 性 水 平 a 和 自由 度 参数 df 
PPARA] —PDR dor n n]-1-« 


a 
x. Gf 


程序 28-5 ”生成 卡 方 分 布 临 界 值 表 : 自由 度 af， 显著 性 水 平 < 
data QuanC; 
array a[10] (0.995, 0.990, 0.975, 0.950, 0.900, 
0.100, 0.050, 0.025, 0.010, 0.005); 
do df-1 to 120; 


array c[10]; 

do i- 1 to dim(a); 
p=1-a[i]; /* ali] 为 置信 区 间 的 显著 性 水 平 Alpha*/ 
c[i]- cinv(p, df); /* 临界 值 xa， 即 第 p 个 分 位 数 */ 

end; 


format c: 9.4; 
keep df c: ; 
output; 

end; 


run; 
/* 创建 列 标签 0.995 - 0.005 并 打印 */ 
%macro SetLabel(); 
data QuanC; 
set QuanC; 
label cl1-"0.995" c2-"0.990" c3-"0.975" c4-"0.950" c5-"0.900" 
c6-"0.100" c7-"0.050" c8-"0.025" c9-"0.010" c10-"0.005"; 
run; 
*mend; 
$SetLabel(); 
proc print label;run; 


运行 程序 输出 如 下 六 分 布 临界 值 x2(df) 表 ， 第 1 列 为 自由 度 dp 第 1 行为 显著 性 
水 平 x。 单 元 格 数值 为 置信 水 平 1-a 所 对 应 的 分 位 数 。 当 显著 性 水 平 为 0.050 和 0.010 时 ， 
对 应 置信 水 平 为 95% 和 9996. 

服从 正 态 分 布 的 随机 变量 的 平方 和 构成 的 随机 变量 服从 X 分 布 。 参 数 检验 中 对 一 个 
总 体 方差 进行 点 估计 时 构造 的 卡 方 统计 量 服从 x 分布。 卡 方 检验 可 验证 两 个 总 体 某 个 比 
率 之 间 是 否 存在 显著 性 差异 ， 卡 方 值 越 大 反映 相互 偏离 程度 越 高 。 

在 SAS 中 分 布 的 临界 值 也 可 通过 分 位 数 函数 QUANTILE 函数 求 得 ， 比 如 多 分 布 临界 
值 CriticalValue = QUANTILE('CHISQ',1-alpha,df); 假设 检验 中 用 如 下 方法 计算 随 
机 变量 x 所 对 应 的 P- 值 : PValue = 1 - PROBCHI(x, df); 以 判断 接纳 或 拒绝 原 假 设 。 


e 


R 28-5 ”多分 布 临界 值 表 
0.100 


0.050 | 0.025 


0.010 


589 


0.005 


2.7055 


3.8415 | 5.0239 


6.6349 


7.8794 


4.6052 


5.9915 | 7.3778 


9.2103 


10.5966 


6.2514 


7.8147 | 9.3484 


11.3449 


12.8382 


7.7794 


9.4877 | 11.1433 


13.2767 


14.8603 


9.2364 


11.0705 | 12.8325 


15.0863 


16.7496 


10.6446 


12.5916 | 14.4494 


16.8119 


18.5476 


12.0170 


14.0671 | 16.0128 


18.4753 


20.2777 


13.3616 


15.5073 | 17.5345 


20.0902 


21.9550 


o[o|a]|o]|un]|z2]|o|m]|- 


14.6837 


16.9190 | 19.0228 


21.6660 


23.5894 


15.9872 


18.3070 | 20.4832 


23.2093 


25.1882 


19.6751 | 21.9200 


24.7250 


26.7568 


21.0261 | 23.3367 


26.2170. 


28.2995 


11.1602 


10.1957 
10.8564 
11.5240 
12.1981 


29.6151 


26.2962 
27.5871 
28.8693 


1 09 | 27.2036 | 30.1435 | 32.8523 | 36.1909 | 38.5823 
12.4426 | 28.4120 | 31.4104 | 34.1696 | 37.5662 | 39.9968 
1 96 


28.8454 
30.1910 
31.5264 


32.6706 | 35.4789 


31.9999 
33.4087 
34.8053 


38.9322 


34.2672 
35.7185 
37.1565 


41.4011 


30.8133 | 33.9244 | 36.7807 | 40.2894 | 42.7957 
32.0069 | 35.1725 | 38.0756 | 41.6384 | 44.1813 
12.4012 | 13.848. 33.1962 | 36.4150 | 39.3641 | 42.9798 | 45.5585 


13.1197 
13.8439 


37.6525 
38.8851 | 41.9232 


45.6417 


40.6465 | 44.3141 | 46.9279 


48.2899 


11.8076 


12.8785 


14.5734 


40.1133 | 43.1945 


46.9629 


49.6449 


12.4613 


13.5647 


41.3371 | 44.4608 


48.2782 


50.9934 


13.1211 


14.2565 


16.0471 


42.5570 | 45.7223 


49.5879 


52.3356 


13.7867 


14.9535 


16.7908 


43.7730 | 46.9792 


50.8922 


53.6720. 


14.4578 


15.6555 


17.5387 | 19.2806 | 21.4336 | 41.4217 


44.9853 | 48.2319 


52.1914. 


55.0027 


15.1340 


16.3622 


18.2908 | 20.0719 | 22.2706 | 42.5847 


46.1943 | 49.4804 


53.4858 


56.3281 


15.8153 


17.0735 


19.0467 | 20.8665 | 23.1102 | 43.7452 


47.3999 | 50.7251 


54.7155 


57.6484 


16.5013 


17.7891 


19.8063 23.9523 


48.6024 | 51.9660 


56.0609 


58.9639 


17.1918 


18.5089 


20.5694 | 22.4650 | 24.7967 | 46.0588 


49.8018 | 53.2033 


57.3421 


60.2748 


17.8867 


19.2327 


21.3359 | 23.2686 | 25.6433 | 47.2122 


50.9985 | 54.4373 


58.6192 


61.5812 


18.5858 


19.9602 


22.1056 | 24.0749 | 26.4921 | 48.3634 


52.1923 | 55.6680 


59.8925 


62.8833 


19.2889 


20.6914 


22.8785 | 24.8839 | 27.3430 | 49.5126 


53.3835 | 56.8955 


61.1621 


64.1814 


19.9959 


21.4208 


21.4262 


22.9056 


23.6543 | 25.6954 | 28.1958 | 50.6598 


54.5722 | 58.1201 


62.4281 


65.4756 


24.4330 | 26.5093 | 29.0505 | 51.8051 | 55.7585 | 59.3417 | 63.6907 | 66.7660 


25.2145 | 27.3256 | 29.9071 | 52.9485 


56.9424 | 60.5606 


64.9501 


68.0527 


22.1385 


23.6501 


25.9987 | 28.1440 | 30.7654 | 54.0902 


58.1240 | 61.7768 


66.2062 


69.3360 


22.8595 


24.3976 


26.7854 | 28.9647 | 31.6255 | 55.2302 


59.3035 | 62.9904 


67.4593 


70.6159 
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CEK) 
a=0.995 | 0.990 | 0.975 | 0.950 | 0.900 | 0.100 | 0.050 | 0.025 | 0.010 | 0.005 
23.5837 | 25.1480 | 27.5746 | 29.7875 | 32.4871 | 56.3685 | 60.4809 | 64.2015 | 68.7095 | 71.8926 
24.3110 | 25.9013 | 28.3662 | 30.6123 | 33.3504 | 57.5053 | 61.6562 | 65.4102 | 69.9568 | 73.1661 
25.0413 | 26.6572 | 29.1601 | 31.4390 | 34.2152 | 58.6405 | 62.8296 | 66.6165 | 71.2014 | 74.4365 
25.7746 | 27.4158 | 29.9562 | 32.2676 | 35.0814 | 59.7743 | 64.0011 | 67.8206 | 72.4433 | 75.7041 
26.5106 | 28.1770 | 30.7545 | 33.0981 | 35.9491 | 60.9066 | 65.1708 | 69.0226 | 73.6826 | 76.9688 
27.2493 | 28.9406 | 31.5549 | 33.9303 | 36.8182 | 62.0375 | 66.3386 | 70.2224 | 74.9195 | 78.2307 
27.9907 | 29.7067 | 32.3574 37.6886 | 63.1671 | 67.5048 | 71.4202 | 76.1539 | 79.4900 
28.7347 | 30.4750 | 33.1618 38.5604 spaans 72.6160 | 77.3860 | 80.7467 
29.4812 | 31.2457 | 33.9681 65.4224 | 69.8322 | 73.8099 | 78.6158 | 82.0008 
30.2300 | 32.0185 | 34.7763 66.5482 75.0019 | 79.8433 | 83.2526 
30.9813 | 32.7934 | 35.5863 67.6728 | 72.1532 | 76.1920 | 81.0688 | 84.5019 
31.7348 | 33.5705 | 36.3981 68.7962 77.3805 | 82.2921 | 85.7490 
32.4905 | 34.3495 69.9185 78.5672 | 83.5134 | 86.9938 


34.0084 | 35.9135 
34.7704 | 36.6982 | 39.6619 | 42.3393 
35.5345 | 37.4849 | 40.4817 | 43.1880 
36.3005 | 38.2732 | 41.3031 89.5913 | 93.1861 
37.0684 | 39.0633 | 42.1260 
49.110. 


64 | 38.6098 | 40.6486 | 43.7760 | 46.5949 


66 | 40.1582 | 42.2402 


67 | 40.9350 | 43.0384 | 46.2610 | 49.1623 
68 |41.7135 | 43.8380 | 47.0920 | 50.0202 
69 


42.4935 | 44.6392 | 47.9242 7 99.2275 [102.9962 
70 [43.2752 | 45.4417 | 48.7576 T 7 5.023 104.2149 
71 | 44.0584 | 46.2457 | 49.5922 56.2206 | 86.6354 96.1887 105.4320 
72 | 44.8431 | 47.0510 | 50.4279 57.1129 | 87.7430 97.3531 106.6476 
73 |45.6293 | 47.8577 | 51.2648 58.0061 | 88.8499 98.5163 107.8617 
74 | 46.4170 | 48.6657 | 52.1028 58.9000 | 89.9560 | 95.0815 | 99.6783 109.0744 
75 | 47.2060 | 49.4750 | 52.9419 | 56.0541 | 59.7946 | 91.0615 | 962167 110.2856 
76 | 47.9965 | 50.2856 | 53.7821 | 56.9198 | 60.6899 | 92.1662 | 97.3510 111.4954 
77 | 48.7884 | 51.0974 | 54.6234 | 57.7864 | 61.5858 | 93.2702 | 98.4844 112.7038 
78 |49.5816 | 51.9104 | 55.4656 | 58.6539 | 62.4825 | 94.3735 | 99.6169 113.9109 
79 | 50.3761 | 52.7247 | 56.3089 | 59.5223 | 63.3799 | 95.4762 [100.7486 115.1166 
80 | 51.1719 | 53.5401 | 57.1532 | 60.3915 | 64.2778 | 96.5782 | 101.8795 1163211 
81 | 51.9690 | 54.3566 | 57.9984 | 61.2615 | 65.1765 | 97.6796 | 103.0095 117.5242 
82 |52.7674 | 55.1743 | 58.8446 | 62.1323 | 66.0757 | 98.7803 |104.1387 118.7261 
83 | 53.5669 | 55.9931 | 59.6918 | 63.0039 | 66.9756 | 99.8805 | 105.2672 119.9268 
85 |55.1696 | 57.6339 | 61.3888 | 64.7494 | 68.7772 [102.0789 |107.5217 | 112.3934 [118.2357 | 122.3246 
86 | 55.9727 | 58.4559 | 62.2386 | 65.6233 | 69.6788 [103.1773 [108.6479 113.5436 [119.4139 | 125.5217 


a=0.995 


0.990 


0.975 | 0.950 | 0.900 


0.100 0.025 


0.010 


GERD 


0.005 


56.7769 


59.2790 


63.0894 | 66.4979 | 70.5810 


104.2750 114.6929 


120.5910 


124.7177 


57.5823 


60.1030 


63.9409 | 67.3732 | 71.4838 


105.3722 115.8414 


121.7671 


125.9125 


58.3888 


60.9281 


64.7934 | 68.2493 | 72.3872 


106.4689 116.9891 


122.9422 


127.1063 


59.1963 


61.7541 


65.6466 | 69.1260 | 73.2911 


107.5650 118.1359 


124.1163 


128.2989 


60.0049 


62.5811 


66.5007 | 70.0035 | 74.1955 


108.6606 119.2819 


125.2895 


129.4905 


60.8146 


63.4090 


67.3556 | 70.8816 | 75.1005 


109.7556 120.4271 


126.4617 


130.6811 


61.6253 


64.2379 


68.2112 | 71.7603 | 76.0060 


110.8502 121.5715 


127.6329 


131.8706 


62.4370 


65.0677 


69.0677 | 72.6398 | 76.9119 


111.9442 122.7151 


128.8032 


133.0591 


63.2496 


65.8984 


69.9249 77.8184 


113.0377 |118.7516]| 123.8580. 


129.9727 


134.2465 


64.0633 


66.7299. 
pL 


70.7828 78.7254 


114.1307 | 119.8709 | 125.0001 


131.1412 


64.8780 


67.5624 


71.6415 79.6329 


115.2232 | 120.9896| 126.1414 


132.3089 


65.6936 


68.3957 


80.5408 


66.5101 


69.2299 


116.3153 |122.1077| 127.2821 


133.4757 


102 | 68.9652 | 71.7374 | 75.9457 | 79.697: 


103 
104 
105 
106 
107 
108 
109 
110 


112 


69.7853 
70.6064 
71.4282 
72.2509 
73.0745 
73.8989 
74.7241 
75.5500 


77.2044 
78.0327 


72.5748 
73.4130 
74.2520 
75.0918 
75.9323 
76.7736 
77.6156 
78.4583 


80.1459 
80.9907 


76.8086 | 80.582: 


79 

z 91.4710 

111 | 76.3768 | 79.3017 | 83.7350 | 87.6808 | 92.3846 |130.4716|136.5911 | 142.0486 
6|1 


123.2252]128.4220 


128.2983 


134.3688| 139.7839 


132.6433 138.8114] 144.3110 


134.6416 
135.8067 


140.4590. 
141.6201 
142.7804 


145.0988 
146.2569 


148.5710. 


150.8822 


144.8913 
146.0696 
147.2470. 


149.5994 
150.7743 


140.9166|147.4143|151.9485 


153.1218 


78.8618 


81.8362 


133.7286|1 


152.0367 


79.6916 


82.6824 


134.8135|141.0297|146.5711 


153.1906 


80.5221 


83.5293 


88.0837 | 92.1338 | 96.9582 


135.8980 | 142.1382| 147.7002 


154.3438 


81.3534 


84.3768 


88.9551 | 93.0258 | 97.8740 


136.9822 | 143.2461 | 148.8288 


155.4964 


82.1854 


85.2250 


89.8271 | 93.9183 | 98.7902 


138.0660 | 144.3537 | 149.9569 


156.6483 


83.0182 


86.0738 


90.6996 | 94.8112 | 99.7067 


139.1495 | 145.4607] 151.0844 


157.7995 


83.8516 


86.9233 


140.2326|146.5674| 152.2114 


158.9502 
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附录 6 


王 分 布 临界 值 表 ， 显 著 性 水 平 a 和 两 个 自由 度 参数 n 和 m 
P|F(n, m)|>F,(n, m)-a« 


程序 28-6 生成 F 分 布 临 界 值 表 : F(n,m,a) 
data QuanF; 
array ndf[20] temporary (1, 2, 3, 4, S, 65 7, 8; 9, 10, 
12, 15, 20, 24, 30, 40, 50, 60, 100, 120); 
array ddf[43] temporary ; 
do i-1 to 30; 
ddf[i]-i; 
end; 
do i-40 to 120 by 10; 
ddf [30+ (1-30) /10] =i; 
end; 
do i=140 to 200 by 20; 
ddf [39+ (i-120) /20]=i; 
end; 
a= 0.10; /* 显著 性 水 平 : 0.10, 0.05, 0.025, 0.010, 0.005 */ 
do i-1 to dim(ddf); 
m-ddf[i]; 
array c[20]; 
do j-1 to dim(ndf); 
c[j]-tinv( 1- a, ndf[j], ddf[il); 
end; 
format c: 9.4; 
keep m c: ; 
output; 
end; 
run; 
/* 创建 列 标签 1 - 120 并 打印 */ 
&macro SetLabel(); 
data QuanF; 
set QuanF; 


label cl-"1"  c2-"2"  c3-"3"  c4-"4"  c5-"5" c7="7" 
carp” =" cl 10" cl1-"12* cr 15" di-"24" 
c15-"30" cl16-"40" c17—-"50" c18-"60" c19-"100" 
run; 
5mend; 


S$SetLabel(); 
proc print label;run; 
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